e
Ejercicios, reforzamiento.

La estadística, medidas, aplicación y función  en la investigación.

Unidad III. Diseño del proyecto de investigación.

Objetivos.
Comprender  los conceptos de las medidas estadísticas descriptiva e inferencial más importantes. 
Determinar el nivel de aproximación del proyecto de tesis con relación a esos conceptos.
Reconocer el campo de aplicabilidad de estos conceptos en la investigación.
Del programa. El marco teórico.Pensum. Contenido del Programa de estudios.Del programa. Los modelos.Contenido de la página.
SEMANA 12 
.
Contenido de la página.
Introducción.
Definición.
Uso de la estadística para valorar los resultados.
La media y los promedios.
Los histogramas.
Las clases.
La desviación estándar.
Correlación de variables.
La muestra estadística.
Rechazo de los resultados.
Ejercicios.
 

Introducción.

En esta página se presenta información acerca de la función de la estadística y de las principales medidas de tendencia central, tales como la media, el modo, las clases. la desviación estándar y medidas de correlación estadística. Otros conceptos importantes relativos al proceso de medición tal como los índices y modelos se tratan en otras páginas.
Sin embargo, se comprende, que este no es un curso de estadística y que el estudiante poseé nociones básica relacionada con el cálculo de estas medidas.
 

Definición.

La estadística se define como una metodología científica que trata de la recolección, presentación y agrupación de los datos, así como el análisis, interpretación, proyección e inferencia de ellos.
Se clasifica la estadística en descriptiva e inductiva, siendo la primera la que se interesa en la recolección, presentación, agrupación, análisis e interpretación de los datos.
La segunda, la inductiva o inferencial va más allá de los aspectos descriptivos y se ocupa de hacer generalizaciones sobre conjuntos de datos extensos como son las poblaciones, valiéndose para ello de la utilización de lo que se denomina muestra.

USO DE LA ESTADÍSTICA PARA VALORAR LOS RESULTADOS DE LA OBSERVACIÓN.

Reiteramos, que esta materia se encuentra muy bien tratada en libros de texto sobre estadística, (ver bibliografía) por lo que le daremos un tratamiento sumario a estos temas, haciendo énfasis en las propiedades de ciertas medidas y en los riesgos en que se incurre cuando la comprensión holística sobre sus alcances y limitaciones no se tiene claro,  más que en la manera de calcularlas y demostrarlas matemáticamente.  Destacaremos también la función de apoyo al investigador que significa el dominio de la estadística descriptiva e inferencial.


La media y los promedios.

La observación objetiva es la principal herramienta de la ciencia, y la estadística nos ofrece una otra serie de instrumentos más específicos para medir los resultados de esa actividad. De las observaciones normalmente surge una larga serie de datos que por sí mismos, sin estar guiados por un criterio de análisis,  no aportan mayores o ningún conocimiento significativo, por ejemplo, tomar nota, día a día, de las variaciones del valor de la moneda nacional con respecto al dólar.  Es necesario entonces desarrollar una serie de procedimientos de medición que nos permitan poder lograr que los mismos nos proporcionen una significación.  La “edad promedio (la media) de una población de varones desempleados”, puede ser aportada por una operación que consiste en una serie de datos en los cuales se refleja la edad de los sujetos, si éstos no se resumen en algún resultado, terminarán siendo inútiles.  Sumar estos datos y luego dividirla por el número de total de la población que participó en la observación es mejor que una larga lista de ellos. Hay más información significativa es este valor que en una serie de datos brutos. 
La media aritmética, la podemos definir como la sumatoria de los valores individuales entre el total de casos involucrados. Finalmente, agreguemos, que la media es una de las medidas más utilizadas por el investigador. Ella nos proporciona una información que nos resulta siempre agradable porque tiene la propiedad de sintetizar  largas cadenas de observación en un solo valor que casi se siente  mágico. Podemos tomar las edades de mil personas y al final decir que la edad promedio de la muestra es de 17,5 años. Sin embargo, la media es una medida muy afectada por la distribución de los datos, así como también por los valores extremos. No obstante sus debilidades es una de las medidas más útil en los experimentos. 
Para un grupo de N observaciones, Xi, la media  X se define como 

 La sumatoria de los EXi sobre la población N, o sea Xi / N. (Forma directa), o como la sumatoria de las frecuencia (EfiXi) por los casos sobre la sumatoria de la frecuencia de los casos. 

De la simple operación anterior se obtiene una cifra, pero una justa apreciación cualitativa de su significado probablemente no sea posible. Una medida como el promedio aritmético o la media como ya dijimos, es muy influenciada por los valores extremos. ¿Qué puede significar el promedio de una serie de datos relativos a los ingresos promedio de una población en la cual se incluyeron millonarios junto con los pobres? Como la respuesta es: nada, o cuando mucho, casi nada, entonces, se requiere de una mayor sofisticación en la medición, para que los resultados puedan aportarnos información útil. La información así tratada, permitirá interpretar la incertidumbre que medidas como el promedio, introduce en los resultados. La paradoja es que el promedio nos acerca y nos aleja de la verdad al mismo tiempo. Tenemos que volver a la necesidad de disponer de un criterio analítico estadístico adecuado para poder interpretar los resultados.
La representatividad del promedio viene dado por el grado de concentración de los datos a su alrededor. Por ejemplo, la edad promedio de un grupo de estudiantes del 4to.. grado, es mucho más representativa que la edad promedio de la totalidad del colegio.
La medida que se utiliza para el cálculo de la representatividad de las medidas de tendencia central es la desviación estándar.


Los histogramas.

El histograma es una herramienta muy útiles en la investigación, nos permite ver como los datos obtenidos, a partir de una observación metódica, se distribuyen a lo largo de una o varias escalas. El histograma es un diagrama de barras, donde cada una de ella representa la frecuencia con que se presentan los datos. También nos permite ubicar visualmente  medidas de tendencia central como son La Media, la Mediana o la Moda y como los valores se aproximan o se alejan de esas medidas. 
Los histogramas representan mejor las características de   una población que una medida de tendencia central. Para la interpretación correcta de los resultados de una investigación que incluye una serie de datos, el histograma es una obligada presentación.
Supongamos que disponemos de una ristra de datos relativos a las calificaciones de un curso.
19/17/4/12/11/12/17/18/19/11/11/8/1/20/11/55/20/1/8/8/18/12/10/7/10/11/
Un vistazo inicial es muy poco lo que puede extraer de ese conjunto. Sin embargo, si convertimos en un histograma los anteriores datos podremos extraer mayor cantidad de información.
 
 
.
. . .
. . .
. . . .
. . . . .

Las clases.

En la tabla al final, se observan estos mismos valores. También los hemos agrupados en clases. Este último termino es importante que lo justifiquemos de inmediato. Cuando se está en un proceso de medición, debe llegarse a un acuerdo en cuanto a las diferencias significativas de los valores. Por ejemplo, sí estamos estudiando los hábitos de consumo de “Tomadores de Café y su relación con la Tensión Arterial”, utilizando como instrumento de medición un tensiómetro, (capaz de registrar pequeñas variaciones en la variable de entrada), seguramente no se encontrará  diferencia significativa -por sus consecuencias en la salud- (variable de salida menos exacta)-, entre los que ingieren 4 o 5 tazas al día. Al no encontrar diferencias, los podemos agrupar en una misma clase que pudiera ser la “clase 4-6”, luego, si pasar a 7 tazas, ya producen consecuencias significativas observables médicamente, distintas con relación a los de la clase anterior, entonces, allí debe hacerse una demarcación y comenzar otra clase, probablemente la “clase 7-9”, y así sucesivamente. Veamos otro ejemplo,  ¿Tendrá una diferencia significativa, una calificación de 12, 13 ó 14 puntos, dentro de una escala de 20 puntos? Si la respuesta es no,  entonces, podemos agrupar estos valores dentro de una clase. Todo estudiante que obtenga una calificación comprendida en el intervalo 12-14, pertenecerá a una misma clase, la clase “B”. Debido a que los instrumentos y procedimientos utilizados para conferir notas a los estudiantes, no poseen un grado de sensibilidad suficientemente fino e independiente de toda subjetividad humana como el tensiómetro,  para detectar el valor exacto en que se expresa el complejo indicador, no tiene caso hacer un “problema de honor” pequeñas diferencias, que nada aportan en la mejor comprensión del hecho que estamos estudiando. 

La ausencia de diferencias significativas entre valores, es la que justifica su agrupamiento en clases. Al agrupar los valores en clases, podemos observar mejor su comportamiento, tanto en cuanto a la tendencia que tengan los datos de agruparse en torno a un valor central, como la dispersión que los mismos tienen con relación a los valores centrales, tales como la media o la mediana. Tanto las medidas de tendencias central como las de dispersión y correlación funcionan como instrumentos de verificación de  las hipótesis científicas.

TABLA.

Conjunto de datos:
19-17-4-12-11-12-17-18-19-11-
11-8-7-20-11-5-20-1-8-8-18-12-
10-9-10-11-12-15.
________________
Los datos anteriores se agrupan en
clase..........................................
Clases.
1 a 3,9
4 a 7,9
8 a 11,9 media
12 a 15,9 mediana
16 a 20
Frecuencia
1
3
9
7
8
28
En la ristra de datos de arriba no es posible observar la media, ni la mediana (punto donde se divide en un 50% la muestra) ni la moda (valor que más se repite).  Cuando se agrupan los datos por clases se observa mejor  la concentración. La frecuencia nos permite ver la distribución en torno a la media.

Nótese que la asimetría de la distribución no permite que coincidan las medidas de tendencia central. Podemos ver con claridad que hay una tendencia hacia las calificaciones más altas. Nos faltaría saber todo lo representativo que es la media en este caso, pero para eso necesitamos otro tipo de mediciones que veremos a continuación como es la desviación estándar que tiene que ver con la amplitud de las distribuciones y como se desvía los datos entorno al promedio. Como podemos ver la media se encuentra en la clase 3, cuando la clase 5 es casi tan representativa como esa clase. El valor más “popular” es el 11, aunque el promedio dice que es el 13. 
Todas esa debilidades de las medidas de tendencia central pueden ser apreciadas a través de un diagrama y por eso siempre deben acompañar los informes del investigador, pero los diagramas por sí mismo no pueden aportar demostraciones ni valores matemáticos para hacer cálculos, esos valores se encuentran en los datos y las fórmulas que le dan origen. Los diagramas surgen de las observaciones y de los cálculos que realizamos con los datos obtenidos, nunca a la inversa. 


La desviación estándar.

La desviación estándar es una medida de la dispersión que presentan los valores medidos con relación a la media.  Esta medida se desarrolla a partir de una idea teórica sistematizada por primera vez por Carl Friedrich Gauss (1777-1855) dentro del marco de la Teoría de las Probabilidades. Gauss descubrió, que en la naturaleza los fenómenos tienden a distribuirse siempre con una forma a la que llamó normal. Esta forma típica significa,  que al observar un conjunto de hechos de la misma naturaleza, es más probable que un valor sea promedio que extremo, y lo más interesante, es que Gauss calculó esta probabilidad. A partir de entonces, la distribución de Gauss, como comúnmente se le conoce, se utiliza para interpretar muchos tipos de mediciones físicas y sociales.  Debido a que muchas de las mediciones de estos fenómenos guardan estrecha correspondencia con los fundamentos teóricos de la distribución Gussiana, y en parte, por que la experiencia demuestra que la estadística Gaussiana  si proporciona una descripción razonablemente exacta de muchos sucesos reales, la distribución goza de excelente respetabilidad científica. En este sentido esta medida nos permite decidir acerca de la confianza que podemos tener  en los resultados obtenidos a partir de cuidadosas observaciones.

El sustrato teórico profundo de la teoría Gaussiana, se deduce de  la hipótesis, de que la desviación total  de una cantidad medida x, respecto a un valor central X,  es la resultante de una gran cantidad de pequeñas fluctuaciones  que ocurren a azar.

Sí cruzamos  una diana con dos líneas oblicuas obtenemos cuatro áreas alrededor del centro, si le asignamos valores positivos al superior de la derecha e inferior de la izquierda y valores negativos a los dos restantes, y luego, lanzamos cien veces un dardo que acierta, la probabilidad que la suma algebraica sea más cercana a cero que a otro valor, es mayor que cualquier otra.  Mientras menos  intentos x, hagamos, se aleja la probabilidad de obtener cero, y en consecuencia la dispersión es mayor. De lo anterior obtenemos el principio de que: <mientras mayor es la población involucrada en una medición, mayor es la probabilidad de una menor dispersión de los datos, y viceversa>

Cuando la dispersión de los datos es grande, la confianza en la representatividad de los valores centrales es menor, que cuando la dispersión es pequeña.

La construcción teórica nos dice, que se puede considerar normal  una distribución, si luego de haber obtenido la media o el promedio, entre ésta y la desviación estándar conseguimos el 68% de los datos incluidos dentro de este intervalo y el 95% si es la media más dos veces la desviación estándar. Sin embargo, no tenemos forma de saber qué distribución Gaussiana, con sus respectivos valores de X  e Y, es adecuada para nuestras observaciones. Para poder salvar este obstáculo, no nos queda otra alternativa, que figurarnos como sería la distribución si pudiéramos disponer de la información de todo el universo de casos que forman nuestro estudio. Luego, con nuestra muestra de casos, calcular la media, la desviación estándar y esperar que nuestros datos se encuentran dentro del 68% o del 95% como lo determina la distribución Gaussiana. Una demostración matemática  de este punto nos obligaría a trasladarnos a los textos tradicionales de estadística, en donde se conseguirán secciones que tratan este aspecto.
Si la distribución del universo de observaciones aisladas es Gaussiana, la teoría del muestreo indica que la distribución de las medias de la muestra también es Gaussiana, este parámetro se denomina desviación estándar de la media, y su valor es: la desviación estándar sobre la raíz cuadrada de la población (N).


Correlación de variables.

El término correlación se ha utilizado en variedad de contextos para indicar el grado de relación de dependencia entre dos o más variables. La teoría de la correlación se interesa en el empleo de muestras para hacer estimaciones, contrastar hipótesis, o llevar a efecto otros procesos concernientes a correlaciones de poblaciones.
El coeficiente de correlación momento producto de Pearson, llamado más comúnmente como coeficiente de correlación se expresa por el símbolo Q en la población y N en la muestra.
El coeficiente de correlación fue concebido a principios de este siglo por Karl Pearson, Edgeworth y Yule. Posteriormente fue revisado, sistematizado y perfeccionado por otros matemáticos. A partir de los años 30 participaron los  psicólogos Spearman y Thurtone, desarrollando el análisis de componentes principales y la correlación canónica . La sociología se dio cuenta a principio de los 50 de la importancia de las matemáticas en sus trabajos, e incorporó estos métodos de análisis a sus investigaciones.
La correlación se utiliza cuando se tienen dos o más conjuntos de valores que se consideran que podrían estar asociados, el coeficiente de correlación nos indicaría el grado, en el cual, ambos conjuntos dependen entre si. El coeficiente de correlación es la medida de la correlación para un conjunto particular de observaciones. El estudio matemático de la correlación se llama “análisis de regresión”. 
Por ejemplo, si consideramos que  parece lógico suponer que las horas de entrenamiento en carreras de fondo, deben mejorar los tiempos, y tomamos como muestra un conjunto de deportistas, supongamos 50, cada uno de estos participantes deberá aportarnos las horas diarias que entrena y los tiempos que logra hacer en 10 kilómetros. Si medimos esta correlación con el  coeficiente de correlación, este nos arrojará un valor que se encuentra comprendido entre – 1 y + 1. El valor de esta cantidad dependerá del grado de dispersión de las observaciones. Si todas las observaciones coinciden exactamente sobre una línea recta significa que no hay dispersión de los datos y que los tiempos mejoran proporcionalmente al tiempo empleado en el entrenamiento. Si es 0, no existe correlación alguna entre las variables, normalmente decimos que ambas se encuentra incorrelacionadas. 
Es importante señalar que es corriente encontrar en diversos trabajos de investigación, la confusión de interpretar estos resultados en términos de causa-efecto, cuando de hecho ni la regresión, ni la correlación, ni cualquier otro procedimiento puramente estadístico puede validar tal relación.
Cuando se utiliza el coeficiente de correlación como medida de dependencia entre variables, tenemos que buscar conceptos distintos al de “probar”, esto no significa que tales afirmaciones no sean lo suficientemente convincentes.
Encontramos el concepto de correlación en dos casos significativos: a) si de dos variables medidas, una puede considerarse causa de la otra, pero su efecto está parcialmente encubierto por fluctuaciones al azar, y b) si dos variables pueden considerarse como consecuencias simultáneas de una causa común cuyo efecto, como antes, está parcialmente oculto por fluctuaciones al azar. En cualquier caso podríamos afirmar que puede observarse un cierto grado de correlación entre una variable y otra.
En el caso a) será el grado en que la variación de la variable de salida (el tiempo) se puede atribuir a la variable de entrada ( el entrenamiento); en el caso b) será el grado en el que la variación de ambas variables se puede atribuir a la variación de cualquiera que sea la fuente común de la influencia. (este no es el caso de nuestro ejemplo)
La teoría de la correlación está actualmente considerada como una importante herramienta en experimentación, especialmente, en aquellos casos en que intervienen muchas variables.
En el estudio matemático de correlaciones entre variables, el lenguaje utilizado es el de la teoría de matrices clásica; se necesitan algunos conocimientos sobre matrices, transformaciones lineales, formas cuadráticas y ecuaciones en forma determinante. Afortunadamente para los que no dominan estos cálculos, actualmente las computadoras pueden hacerlos en segundos, esto hace aún más relevante el hecho de que lo fundamental es nuevamente comprender conceptualmente esta medida, su naturaleza alcance, significado y limitaciones, para plantearlo en los casos que corresponde y poder interpretar sus resultados. No obstante, presentamos a continuación la ecuación con la que se calculan los coeficientes de correlación para un par de variables.
r = Exy / raíz cuadrada Ex2y2

La muestra estadística.

La muestra estadística representa al universo, a la serie infinita de valores a los que nunca tendremos acceso. Por ejemplo, la totalidad de la sangre de una persona para efectuarle un estudio.  El problema consiste, en cómo saber, que esta muestra (10cc) se relaciona correctamente con los valores de ese universo y la representa correctamente. Nuestro problema,  en síntesis, es encontrar una relación entre el resultado teórico y las propiedades de la muestra. Si esto se logra, nos permite inferir las propiedades del universo a partir de los valores de la muestra. (Baird, 1991, p40).

De acuerdo con lo señalado anteriormente, es lógico afirmar, que mientras mayor sea la muestra, tanto más precisa serán las afirmaciones finales. Es conveniente no obstante, hacer la anotación, que la precisión de un valor medio, aumenta sólo en proporción directa a la raíz cuadrada del número de observaciones de la muestra, de todos modos, se incrementa, y las muestras más grandes tienen medias más precisas.

Otro factor muy importante a considerar es el de la homogeneidad y la heterogeneidad  del universo al que pretendemos representar a través de la muestra. Pongamos por ejemplo, los clásicos estudios de opinión que se hacen antes de una elección presidencial con el objeto de predecir cuales serán los resultados finales. La población a estudiar está compuesta por hombre y por mujeres, tenemos razones para pensar que este factor puede influir en los resultados, luego, la población votante tiene diferentes edades y este factor también puede influir. Además, los votantes no pertenecen al mismo estrato socioeconómico de la población, lo cual es otro factor a considerar. Lo anterior nos indica que estamos en presencia de un universo heterogéneo. En este caso, para que la muestra sea representativa, deberá en pequeña escala poseer todas las propiedades citadas anteriormente y en su misma proporción. Si, en el universo real el 51% son varones, y el 49%, son mujeres, en esta misma proporción deberá aparecer en la muestra.  Si el universo de edades se distribuye, 25%, entre 18 y 25 años; 22%, entre 26 y 35; 20%, entre 36 y 45; y 33%, restante mayor de 46%, la muestra debe contener esa misma proporción. Igual sucede con la estratificación social. Tenemos que asegurarnos que las clases A, B, C, D y E, sean consultada en la proporción que tienen en el universo. Si la clase A, es el 4%, y la muestra son mil personas, entonces deberemos entrevistar: 40 personas, 19 mujeres y 21 varones. 5 mujeres, entre 18 y 25; 4, entre 26 y 35; 4, entre 36 y 45, y 6, mayores de 45. Igual debemos hacerlo con los varones. Este tipo de muestra se llama estratificada. Si quisiéramos hacer un seguimiento de las variaciones de opinión, entonces tendríamos que efectuar las mismas mediciones varias veces en el transcurso del lapso en el cual queremos registrar las variaciones. A esta actividad se le llama recolección polietápica de la muestra estadística. Adicionalmente, se deberá tener la precaución de desconcentrar geográficamente  la muestra y extenderla lo más posible en el ámbito del universo real. Es decir, dispersarla. Finalmente las personas seleccionadas habrán sido escogidas al azar. 
 

Como se puede observar, la selección de la muestra depende de la correcta interpretación que hacemos de las propiedades del universo al cual no podemos tener acceso como lo señalamos al principio de este punto.
El estudio matemático de la muestra estadística cae dentro del campo de las probabilidades. Sin el dominio de esta disciplina, la muestra para casos complejos puede resultar defectuosa y en consecuencia arrastra al investigador a  análisis equivocados. Es necesario de nuevo decirlo, que hay que recurrir a los libros de texto de estadística para aprender a hacer estos cálculos.

Con relación a la desviación estándar, esta decrece en confiabilidad a medida que la muestra es menor. Esto nos lleva inevitablemente a trabajar sobre la pregunta ¿Cuán buena es nuestra muestra?. La respuesta a esta pregunta está en la amplitud de la desviación estándar de la muestra, y por lo tanto, debemos calcular la desviación estándar de la desviación estándar. Como esto es un proceso que podría aplicarse indefinidamente, tendremos que finalizar en una conclusión casi de perogrullo, y esta es que 

INTENTAREMOS TRABAJAR CON MUESTRAS PEQUEÑAS SOLAMENTE CUANDO NO QUEDE MÁS ALTERNATIVA.


Rechazo de los resultados.

En las ciencias sociales, mucho más que en las ciencias naturales, cuando hacemos mediciones, obtendremos valores que están más allá del rango que hemos establecido como normal para aceptarlos. Ya se sabe, que en una distribución normal la probabilidad de que un valor se encuentre más allá del 95%, es decir, la media más dos veces la desviación estándar, es del 5%, por lo tanto, la decisión de rechazar datos, es una responsabilidad del investigador. El criterio orientador para tomar esta decisión, se encuentra en nuestros conocimientos asentados sobre las características del fenómeno en estudio. No obstante, siguiendo criterios estadísticos,  la experiencia nos dice, que más allá de los limites de 3 veces la desviación, los datos que consigamos serán seguramente  datos equivocados.

Lo anterior nos señala, que lo principal es conocer las características de la desviación estándar. Podemos  estar seguros, de que cualquiera observación muy divergente, se deberá a errores en la obtención de esos datos. Baird, (p51), lo señala taxativamente: “El requisito básico es, antes de justificar cualquier rechazo, es confiar en la distribución principal de las observaciones del caso”. Si hemos efectuado 20 mediciones y todas se encuentran entre el 1% y el 5%, luego se consigue alguna con una desviación del 10%, seguramente que esto se deberá a un error, y el valor registrado no pertenece al grupo de la muestra, por lo tanto, debemos rechazarlo plenamente convencido de ello. Lo anterior, no debe conducirnos al error de aceptar solamente los datos que encajan en nuestras expectativas.
 

LA REGLA DE ORO DE UN INVESTIGADOR OBJETIVO ES ACEPTAR LOS DATOS TAL COMO ELLOS VENGAN, SEAN O NO DE NUESTRO AGRADO.

 Este es uno de los  principios básicos de lo que se suele llamar “ciencia buena”.


Del programa. Los modelos.


Bibliografía general.
Lecturas complementarias.
Baird. D.C. Experimentación, una introducción a la teoría de mediciones y al diseño de experimentos. Cap. 3 Estadística de la observación.
Bibliografía.
Glosario de términos.
Del programa. El marco teórico.Comienzo de la páginaPensum. Contenido del Programa de estudios.Contenido de la página.Ficha bibliografica de la lectura complementaria.



 
Ejercicios.
Señale que tipos de medida llevará el problema de la investigación que Ud ha decidido.
¿Cuáles a su juicio son los elementos que le añaden incertidumbre a los resultados de su investigación?
Envíe su respuesta al orientador
¿Cómo piensa controlarlos?.
Mantenga constante el ritmo de su avance por el programa del curso.
SEMANA 12 



Curso elaborado por Aula Virtual Universitaria.


Home.
Pánel de distribución de enlaces