viernes, 13 de junio de 2014

Estadística inferencial: muestreo y estimación.

Inferir: es estudiar una parte de algo y extrapolar los datos.
Hay 2 tipos:
·         Los datos de muestreo
·         La estrapolacion de los datos.
Si seleccionamos bien la muestra tenemos que tener en cuenta un error de muestreo.
  
Al conjunto de procedimientos que permiten elegir muestras de tal forma que estas reflejen las características de la población le llamamos TECNICAS DE MUESTREO.
Siempre que trabajamos con muestras tenemos que asumir ciertos errores, puesto que no estudiamos la totalidad de la población.
Si la muestra se realiza por muestreo aleatorio = al azar. La técnica de muestreo en este caso se denomina (muestreo probabilístico) muestreo probabilístico aleatorio y el error asociado a esa muestra elegida al azar se denomina ERROR ALEATORIO.
En los muestreos  no probabilísticos ni siquiera conocemos el error.
Proceso de la inferencia estadística.
Tenemos una población (ciudadanos de Sevilla 700.000)
Y quiero saber un parámetro. (Frecuencia de fumadores)
Selecciono aleatoriamente una muestra.
Y mido en la muestra el parámetro. Denominado ahora ESTIMADOR.

EJEMPLO DE INFERENCIA: quiero saber el tiempo de cura de ulceras por precion de 100 pacientes
Media del tiempo de muestra à 1º= 53.77 dias.
Media del tiempo de muestra à 2º = 57.08 días.
Si seleccionamos muchas muestras, cada una nos dará un valor distinto.
Construimos un HISTOGRAMA con los resultados de todos los resultados de los distintos estudios 1º y 2º. Y obtendremos una gráfica con la típica imagen de la campana de gauss.
Es la medida que trata de captar la variabilidad de los valores del estimador (en este caso la media de los días de curación de ulcera)
El error de cualquier estimador mide el grado de variabilidad en los valores del estimador en la distintas muestras de un determinado tamaño que pudiésemos tomar de una población.
Cuanto más pequeño es el error estándar de un estimador más nos podemos…


DEPENDE DE CADA ESTIMADOR:
ERROR ESTANDAR PARA UNA MEDIA:    S/Öh
ERROR ESTANDAR PARA UNA PROPORCION:       Öp (1-p)/h

De ambas fórmulas se deduce que mientras mayor sea el tamaño de la muestra, menor será el error estándar.

Ejemplo:
Muestra aleatoria de 100 pacientes:            h=100
Media de días:                                            x = 53.77; estimador
Desviación típica de la muestra:                           S = 22.84
Así el error estándar es =                            E e =  S/Öh   à 22.84 /Ö100 = 2.28

…………………………………………………………………………………………

Para estimadores que pueden ser expresados como suma de valores muéstrales, la distribución de sus valores sigue una distribución normal con la media de la población y desviación  típica igual al error estándar del estimador de que se trate.
Si Sigue una distribución normal, sigue los principios básicos de esta:
Es ese par de valores dentro del cual puedo decir que con una probabilidad alta el

I.C. de un parámetro = estimador ± Z (e. estándar)
Z = es un valor que depende del nivel de confianza 1- con que se quiera…

……………………………………………………………………………………………
  
Ejemplo:
Estamos interesados en conocer el consumo de cigarrillos de alumnos de centros de bachiller de nuestra localidad
Muestra aleatoria de 100 alumnos
Se observó que fumaban una media de 8 cigarrillos al día
Con una desviación típica de 4 cigarrillos en el colectivo total.
Estime el consumo medio de todos los alumnos de Bach. Con un nivel de confianza del 95%.
______________________________
h=100
S= 4
X= 8
I.c = 95%             
Z para el 95% = 1.96       E= S/Öh à E= 4Ö100 = 0.4
                            Z para el 99% = 2.58

Ic 95% = x ± Z e    à IC95% = 8± 1.96 • 0.4 = 8±0.784
                                     8+0.784=
                                     8-0.784=

  
Un centro de salud pretende hacer un estudio sobre obesidad 337 pacientes, los enfermeros realizaron el ICM y encontraron un total de 83 pacientes obesos. Calcula el intervalo de confianza la población de obesos que existe en el centro de salud.

h= 337
S=ÖS(xi-x)²/h-1
c= Sc/n

Frecuencia relativa de obesos = 83/337=0.246  (esto es el estimador)
  24.6%
Error estándar e= Öp (1-p)/h 
             

         Ö0.246 (1-0.246) 
             ___________= 0.023
                337


IC= Ic 95% = x ± Z e    = 0.246±0.023 =  1º-0.201
                                                            2º -0.291

………………………………………………………………………………………….
¿Cuál seria el intervalo de confianza para el 95% de la media de la glucemia basal?


……………………………………………………………………………………………….
Se selecciona una muestra aleatoria simple de 600 familias a las q se ¿ si algunas vez ha recibido una visita domiciliaria de enfermería 240 cont. Afirmativamente.
Obtener un intervalo de confianza del 99% para estimar la proporción real de familias que recibieron atención domiciliaría.

Se está calculando el intervalo de confianza para una proporción.

h= 600    ----- 240 visitas

c= Sc/h  --- >> 240/ 600 = 0.4  frecuencia relativa de familias que recibieron visita domiciliaria de enfermería.

P= 240/600= 0.4

Q=1-p

E=Öp*q/h=0.02                      E= Öp(1-p)/n ---- >>  0.4( 1-0.4)/600= 0.02

IC 99%= p±z*e

IC = 0.4± 2.58*0.02 =  0.34 y 0.35     [no me sale]L, no preocuparse ya saldrá.
Ic= 0.4±0.05=

………………………………………………………………………………………………

PROCEDIMIENTO MUESTRAL.
Un muestreo es un método tal que al escoger un grupo pequeño de una población podamos tener un grado…

2 técnicas de muestreo
  • Probabilísticos; existe un tanto porciento ≠ de 1 de que el muestreo sea aleatorio.
    • Aleatorio simple
    • Aleatorio sistemático
    • Estratificado
    • conglomerados
  • No probabilísticos ; no existe una probabilidad
    • Accidental
    • Por cuotas

1-   Aleatorio simple: todos los sujetos de la población tienen la misma probabilidad de ser incluidos en la muestra.
-      De sorteo o rifa: desventaja de este método es que no puede usarse cuando la población es demasiado grande.
-      Tabla de números aleatorios: + económico y requiere menor tiempo.
2-   Sistemático: similar al aleatorio simple en donde cada unidad de la población tienen la misma probabilidad de ser seleccionados
Se asigna un número aleatorio…

Ejemplo 500 pacientes diabéticos de un hosp. Se calcula un tamaño muestral de 100

Así 500/100= 5

Pues se saca un nº aleatorio… Ejemplo 325 y se cogen cada 5 … hasta completar los 100 sujetos.

3-   Estratificado: se subdivide la población en subgrupos denominados estratos. Esto se hace cuando la población presenta cierta variabilidad que pueda tener influencia sobre el estudio. Ejemplo las mediciones de TA en una población y el muestreo simple nos escoge un 85% de personas mayores de 65 años… pues la variable edad puede influir en la muestra.

TAMAÑO DE LA MUESTRA
El tamño dela muestra a tomar va a depender de:
-      Error estándar
-      De la probabilidad de error encomparar grupos que se considera importante en los valores de la variable a estudiar
-      De la variabilidad [varianza] de la variable a estudiar
Como se calcula ¿?
Depende de lo que queramos estudiar.

1-   Dependiendo si quiero estimar medias ;
la formula será: n =z al cuadrado por X por S al cuadrado /partido de e al cuadrado.
E es el error máximo aceptado por los investigadores en las diferencias entre los grupos de comparación de comparación de la variable a estudiar.
Si tras esta operación se cumple el resultado N > n (n-1) el calculo del tamaño muestral termina aquí.

………………………………………………………..
Se desea hacer una estimación sobre la edad media de una población
Calcula el tamaño de la muestra con un error menor al ….
Z=2.58 = 99%
Medio año =0.5 años
N=2.58² * 3²/0.5²=239.6
La prueba del agodonà 239.6 –redondeo a 240.
Población de 20.000 hab.
N=20000
         n*(n-1)>N
239.6 x 238.6=57168
Es mayor que N
Se hace un reajuste, si quiero estimar proporciones 

Medidas de tendencia central, posición y de dispersión

Además de tablas y gráficos podemos resumir los datos observados mediante estadísticos de los datos observados.

De posición: indican ordenadas de menor a mayor.

Central: Indican el comportamiento general de los datos.

De dispersión: Indica la heterogeneidad de los datos.

MEDIA ARITMETICA O MEDIA: solo variables cuantitativas.
Nos indica el centro de gravedad de nuestros datos.

Media: Se calcula c= suma de la variable (Sc) / total de individuos (h)
c= Sc/n

Media aritmética: se calcula sumatorio de la marca de clase multiplicado por su frecuencia absoluta y dividiéndolo por el total de individuos del estudio.  

 c´= SMc (marca de clase) x fi/h

Esta media se calcula cuando la variable es continua y se agrupan los datos.

MEDIANA: es el valor de la observación tal que deja a un 50% delos datos por debajo y un 50% de los datos por encima.

Para calcular la mediana de un intervalo no se puede calcular y se coge Hi = frecuencia absoluta acumulada y todo lo que pasa de 0.49999 que es igual que decir 49.999%; nos indica que es el 50% por tanto es ese el intervalo mediana.

MODA: es el intervalo o variable que + se repite.

MEDIDAS DE POSICIÓN: es imprescindible ordenar los datos en orden creciente.

Cuantil: solo para variables cuantitativas, se calculan para variables cuantitativas y al = que la mediana, solo tienen en cuenta la posición delos valores en la muestra.

Los cuantiles más usuales son los percentiles, los deciles y los cuartiles, según dividan la muestra ordenada en 100, 10, o 4 partes.

Percentiles: divide la muestra en 100 partes. EL PERCENTIL “i”  [P] ES AQUEL VALOR QUE, ORDENADAS LAS OBSERVACIONES EN FORMA CRECIENTE EL [ ¡ %] DE ELLAS SON MENORES QUE EL [100-i]% RESTANTE SON MAYORES.      

          P1= 1, [por lo que en una muestra de 200 lo dividiría en 10 partes de 10].

Para buscar la posición de un percentil en una serie de datos…

Ejemplo: peso de RN en niño sano. El P: 50, se mira el Hi y se ve donde se encuentra el 0.50, entonces escogeríamos ese intervalo.

El P: 50 es la media y es igual al Q: 2, y al D: 5 el decil es multiplicar por 10 el percentil.

Deciles: divide la muestra en 10 partes

Cuartiles: divide la muestra en 4 partes.  [1º Cuartil = 25; 2º cuartil =50…], [Q1=25, Q2=50, Q3=75, Q4 = 100]
La información aportada por las medidas, son de carácter limitado.



Ejemplo:                             edades
Grupo 1
18
19
20
21
22
c=20
M1=20








Grupo 2
9
14
20
27
30
c=20
M2=20


El RANGO O RECORRIDO_ es la diferencia entre el dato de menor valor y el de más valor.
R= I ch - c1 I
Ejemplo:

R G1= I22-18 I= 4

R G2= I 30-9 I = 21


DESVIACION MEDIA: es la distancia de cada observación por la media sumada y partido del total de sujetos.


Dm G1 = (20-18)+ (20-19)+(20-20)+(21-20)+(22-20)/ 5 = 1.2 [años] esto sería que entre los sujetos hay una media de 1.2 años entre un individuo y otro.

Dm G2 = (20-9)+(20-14)…./5 = 6.8   . [años] esto sería que entre los sujetos hay una media de 6.8 años entre un individuo y otro.

Se interpreta que contra más alto sea el valor más dispersos son los datos.

DESVIACION TIPICA:


Resultados:        S G1= 1.58
S G2= 8.7

Para calcular la desviación típica en un rango: (misma formula excepto la media que se cambia por la marca de clase. 


LA VARIANZA: es el cuadrado de la desviación típica. No aporta información adicional a la desviación típica.
S² Sumatorio fi (mc-x)²/h-1
S²Sumatorio (xi-x)²/h-1

COHEFICIENTE DE VARIACION: es la desviación típica partido por la media. [ de esa serie].
CV= S/ X
Ejemplos:

Cv= 13.42/ 40.46= 0.33  
Lo que significa que estos datos tienen una variabilidad de un 33%.

Cv de G1= 1.58/20= 0.079  7% de variabilidad
Cv de G2= 8.75/20= 0.43 43% de variabilidad

Preguntas típicas de examen:
Calcular la magnitud de asociación entre las variables del estudio.
Realice con los resultados obtenidos una conclusión final a la hipótesis del estudio.

SUPUESTO:

En un estudio sobre hábitos nutricionales de estudiantes de enfermería entre 30 estudiante el dato de las edades de los mismos encontrándose los siguientes datos:

17,17,19,19,31,21,18,27,21,22,24,19,25,24,24,23,20,29,21,22,21,20,20,19,19,23,20,21.

Se pide: (y nos cayó en el examen)

-          Construir la tabla completa y correcta de frecuencias de la variable “edad”
-          Realizar la representación grafica más apropiada.
-          Calcular medidas de tendencia central, rango, desviación típica y coeficiente de variación.



DISTRIBUCIONES NORMALES: En estadística se llama distribución normal, o distribución de Gauss a una de las distribuciones de probabilidad de variable continua que con más frecuencia que con más frecu aparecen fenómenos reales.

¿Cuantas desviaciones estándares le debo sumar a la media si quiero saber dónde se sitúa el 95% de las observaciones? 

*típica pregunta de examen

La grafica de su función de densidad tiene una forma acampanada o campana de Gauss. Y el pico más alto coincide con la media, mediana y moda, pero no en todas.

Si le sumamos o restamos una desviación típica a la mediana; en ese rango se van a encontrar el 68.8% de los individuos.

Cuando la campana es asimétrica no coinciden los valores con el pico más alto de la campana.

La asimetría se indica según el lugar donde se encuentre la media. A derecha o izquierda.

El coeficiente de asimetría de una variable: grado de asimetría de una distribución de sus datos… cunando el grado es 0 quiere decir que existe = concentración de valores a la izq y al a derecha de la media.

Si el grado de asimetría es positivo: quiere decir q  es un grado de asimetría hacia la izquierda por lo que el pico va a la derecha y la moda está a la derecha.

Si el grado de asimetría es negativo: quiere decir que es un grado de asimétrico a la derecha por lo que la moda estará a la izquierda y la media quedara a la derecha de la punta de la campana de gauss.

CURTOSIS: es el coeficiente de apuntamiento de una variable, si hay mucha curtosis quiere decir que los datos están muy apelotonados. En una distribución normal el grado de curtosis es 0.

Grado 0= distribución mesocurtica
Grado >0; +0= leptocurtica, presenta un elevado grado de concentración alrededor de los valores centrales de una variable.
Grado <0; -0= platicurtica, lo contrario de la leptocurtica.


INTERVALOS


1-   Definición de los intervalos
2-   Definición de extremos de los intervalos


Calcular el rango de diferencia entre el rango más bajo y el más alto. N= 40.

6.1 kg. más alto

3.3 kg. más bajo

Rango = 2.8

Para calcular el nº de intervalos a poner hay que utilizar algún tipo de rango y se calcula haciendo la Ön  así = Ö40 = 6.32 à 6 intervalos.

2.8/6 = amplitud de los intervalos = 0.46 gr. Redondeo a 0.50gr.

Intervalo / variable
peso kgr.
Fi
Frecuencia absoluta
Frecuencia absoluta acumulada.
8+3=11  / Fi
hi=fi/n

hi= frecu.relativa
HI = hi/n
Hi= frecu.relativa
acumulada
[3.25 – 3.75)
( = no se incluye.
[ = se incluye.
MC=MARCA DE CLASE = LA MEDIA ENTRE LOS INTERVALOS.
3
3
1.075
0.075
[3.75 – 4.25)

8
11
0.2
0.275
[4.25 – 4.75)
14
25
0.35
0.625
[4.75 – 5.25
6
31
0.15
0.775
[5.25 – 5.75)
4
35
0.10
0.875
[>5.75
5
40
0.125
1

N = 40





Siguiente ejemplo:

N=83

Nº intervalo= Ön =Ö83 = 9.11 redondeo a 9

Rango = R = /40 -2/ = 38

Amplitud = 38 / 9 = 4.2

  
Nº cigarrillos
Fi
Fi
Hi
fi/n
da información solo del intervalo especifico
Hi
Fi/n
Da información sobre el porcentaje
Marca de clase
[2 – 6)
9
9
9/83= 0.108
9/83= 0.108
4
[6 – 10)
3
9+3= 12
3/83=0.036
12/83= 0.144
8
10-14
16
12+16= 28
0.192
0.336
12
14-18
10
28+10= 38
0.120
0.456
16
18-22
33
38+33= 71
0.397
0.853
20
22-26
2
73
0.022
0.875
24
26-30
0
73
0
0.875
28
30-34
5
78
0.06
0.935
32
34-38
1
79
0.0120
0.947
36
>o = 38
4
83
0.048
+/-=1
40
Total
=n
83






Si te dicen que quiere por ejemplo 4 intervalos se coge el rango 38 y se divide entre 4à 38/4= 9.5 y cogeríamos intervalos de 9 ya que siempre es mejor redondear hacia abajo en cuestión de los intervalos.

GRAFICOS: la información que complementa un grafico es una unformacion visual.
Normas:
-   Visualmente claros
-   Representar gráficamente la información que se quiere exprsar.

Diagrama de barras para variables cualitativas nominales policotómicas.

Pictogramas: se representa la barra por un pictograma una imagen, en variable cualitativas nominales policotómicas.

Histograma: Cuando la variable es continua, no nos vale el diagrama de barras, la diferencia está en q el eje x va a expresar los intervalos de la variable
Y si se unen las marcas de clase de cada variable nos da una representación continua de los distintos intervalos en forma de polígono de frecuencia.

Otra forma de representar datos de variables continuas cuantitativas es el grafico de tronco y hojas: ejemplo de TA, 1º se ordena de menor a mayor el tronco viene constituido por las decenas y las hojas los decimales



Diagrama de datos multidimensionales: expone las variables y la incidencia/ frecuencia o valores.