miércoles, 28 de abril de 2021

Sobre la estadística inferencial: población y muestreo

Estadística inferencial. Sobre la población y el muestreo de la misma.

    Consideremos una determinada característica de una población a la cual asociamos una variable aleatoria $X$, observable, con una distribución de probabilidad supuesta (de la cual conocemos algunos o ninguno de sus parámetros) o, quizá, incluso podría darse el caso que la distribución de probabilidad de dicha variable fuese desconocida. Uno de los objetivos de la Inferencia Estadística es el de estimar el valor de los parámetros desconocidos, ya sea de forma puntual o bien mediante el cálculo de intervalos de confianza; otro objetivo igualmente importante es el de realizar contrastes de hipótesis.

La fiabilidad de los resultados de los estudios de inferencia estadística -- que pasa por medir/observar el valor de la característica ( en estudio ) en un subconjunto de la población -- requiere que la elección de la muestra se haya hecho de tal manera que sea representativa y, por tanto, debe contemplarse la independencia de elección de sus diversos elementos y, además, ésto tiene que hacerse de forma aleatoria, de tal manera que todos los individuos de la población tengan la misma probabilidad de ser elegidos para formar parte de la muestra. Si la muestra no es representativa, ésta contendrá sesgo con lo cual toda conclusión que se extraiga del estudio no será razonablemente correcta.

Por lo que se acaba de exponer, el tipo de muestreo ideal es el que denominamos muestreo aleatorio simple, que describimos a continuación. Este tipo de muestreo es el que se supondrá en todos los ejercicios que realizaremos en este curso. Sin embargo, en la práctica, es a menudo difícil llevar a cabo este muestreo ideal; por ello, y solamente a nivel informativo debemos citar también tres tipos más de muestreo en los que el sesgo, si bien será pequeño, no será nulo ( habrá que ir con cuidado ): el muestreo aleatorio sistemático ( se escogen los individuos siguiendo una pauta repetitiva a partir de un primer individuo elegido al azar ), el muestreo aleatorio estratificado ( deben mantenerse unas proporciones si la población está formada por varias subpoblaciones con rasgos diferenciales ), y el muestreo aleatorio por conglomerados o áreas ( en el que el muestreo tiene en cuenta los distintos bloques/zonas/áreas en los que se ubican los individuos de la población). Has otros tipos de muestreo, con menor aleatorización que los anteriores, que, si duda introducirán sesgo y, por tanto, habrá que tener muy en cuenta ésto a la hora de emitir conclusiones: el muestreo de tipo errático o casual ( encuestas en la cola de un cine, por ejemplo), el muestreo de efecto bola de nieve ( sondeos en las redes sociales, por ejemplo, en los que un formulario se difunde a través de los servicios de mensajería de la red ), el muestreo por cuotas ( en los que los individuos de la muestra son seleccionados si y solo si cumplen determinados condiciones ) y el muestreo intencionado ( en los que los individuos de la muestra son seleccionados con una fuerte presencia de criterios no aleatorios y, por tanto, suponen un sesgo muy importante ). Vamos a profundizar ahora en algunos detalles.

Muestreo aleatorio simple
    Una muestra aleatoria simple de la población está formada por $n$ observaciones independientes $x_1,x_2,\ldots,x_n$ de la variable aleatoria $X$, entendiéndose por cada $x_i$, ( $i=1,\ldots,n$ ) el valor de la variable aleatoria $X$ observada/medida en el individuo seleccionado al azar y que ocupa el lugar $i$-ésimo, de tal manera que todos los individuos de la población tengan las misma probabilidad de ser elegidos para formar parte de la muestra.

Dicho ésto, podemos ahora interpretar/entender de manera más formal el muestreo aleatorio simple (m.a.s.) de la variable aleatoria $X$ como uno una sucesión de variables aleatorias independientes y del mismo tipo, $X_1,\ldots,X_n$, con la misma distribución de probabilidad que la variable $X$.

Teorema Central del Límite
Dada un muestreo aleatorio simple formado por una sucesión de variables aleatorias independientes $X_1,\ldots\,X_n$ con la misma varianza y la misma media que la variable aleatoria $X$ que sirve de modelo a una cierta característica de la población, entonces la variable aleatoria $(X_1+\ldots+X_n)/n$, que corresponde al estimador $\overline{x}$ de la media $\mu$, sigue una distribución de probabilidad normal $N(\mu\,,\,\sqrt{n}\,\sigma$, por tanto la variable tipificada
    $\dfrac{(X_1+\ldots+X_n)/n - \mu}{\sigma / \sqrt{n}}$
sigue una distribución normal $N(0,1)$.

Observación/comentario:
En muchos problemas de estimación de la media $\mu$ mediante el estimador $\overline{x}$ de la misma, cuya variable aleatoria (en el muestreo) tipificada es
    $\dfrac{\overline{x} - \mu}{\sigma / \sqrt{n}} \sim N(0,1)$
nos toparemos, no obstante, con dos dificultades a la hora de aplicar el TCL: una de ellas será debido a que las muestras puedan ser demasiado pequeñas con lo cual deja deja de tener validez, y, por otra parte, también es muy frecuente no conocer la varianza $\sigma^2$ de la población y, por tanto, tampoco la desviación típica $\sigma$ con lo cual deberemos estimarla, por medio del estimador insesgado de la misma, que es la cuasivarianza, es decir, mediante
    $\displaystyle S^2=\dfrac{1}{n-1}\,\sum_{i=1}^{n}\,(x-\mu)^2$
y de aquí obtener la cuasidesviación típica
    $\displaystyle S=\sqrt{\dfrac{1}{n-1}\,\sum_{i=1}^{n}\,(x-\mu)^2}$
ello nos permitirá operar con otro estimador de la media poblacional:
    $t_{n-1}=\dfrac{\overline{x} - \mu}{S / \sqrt{n}}$
cuya distribución no es $N(0,1)$ sino otra d. conocida como distribución de Student ( debida a William Gosset ) -- con $n-1$ grados de libertad, tal como se anota arriba --, además, funciona también bastante bien para muestras pequeñas. Por supuesto, encontraremos tabulados sus valores en los libros de tablas estadísticas.

No hay comentarios:

Publicar un comentario