Se usa cuando un evento se mide de forma discreta, pero a lo largo del tiempo. e.g. Números de accidentes que ocurren en tres horas en una ciudad, números de llamadas que entran en un callcenter por tres horas.
P(X=k)=k!λk∗e−λ
Valor esperado
E[x]=λ=μ
Varianza
V[x]=λ=μ
Variables Continuas
Normal (Estimaciones intervalo de confianza, test de hipótesis)
El jefe de recursos humanos de una empresa realiza un test de diez items a los aspirantes de un puesto, teniendo en cada item cuatro posibles respuestas, de las que solo una es correcta. Suponiendo que los aspirantes teniendo la misma probabilidad de responder. Se pide hallar las probabilidades para el aspirante:
Probabilidad de acertar respuesta:
P(A)=41
Probabilidad de fallar respuesta:
P(A)=43
Conteste todos los items mal (
n=10
,
p=3/4
)
P(k=10)=(1010)(43)10(41)(10−10)
P(k=10)=(0)!10!10!(43)10(41)(0)
P(k=10)=(43)10=0.056
Conteste al menos cuatro items bien (sumatoria de probabilidad binomial con
p(A)=1/4
,
p(A)=3/4
y
n=[4,10]
)
En un servicio de urgencias de un determinado hospital, se sabe que por término medio llegan diez pacientes durante una hora. Calcula la probabilidad de que:
Sean X el número de pacientes y
E[x]=λ=μ=10
a) Lleguen exactamente cinco pacientes en una hora
c) Lleguen más de cuatro y menos de ocho pacientes en una hora
P(4<X<8)=P(X=5)+P(X=6)+P(X=7)
P(4<X<8)=5!105∗e−10+6!106∗e−10+7!107∗e−10
P(X<5)≈0.191
Aproximaciones entre distribuciones discretas
Se puede aproximar una distribución con otra, si se dan ciertas condiciones en el problema.
En la distribución de Binomial se tiene que:
Valor esperado
E[x]=n∗p
Varianza
V[x]=n∗p∗(1−p)
En la distribución Poisson se tiene que:
Valor esperado
E[x]=λ=μ
Varianza
V[x]=λ=μ
Se puede aproximar Binomial a Poisson cuando
n≥20
y
p<0.05
, y se usa
λ=n⋅p≤10
Es más fácil calcular con Poisson (con exponencial) en lugar de combinatorias.
Ejemplos
Una compañía de seguros garantiza pólizas de seguros individuales contra retrasos aéreos de más de doce horas. Una encuesta ha permitido estimar a lo largo de un año que cada persona tiene una probabilidad de cada mil de ser víctima de un retraso aéreo que esté cubierto por este tipo de póliza y que la compañía aseguradora podrá vender una media de cuatro mil pólizas al año. Se pide hallar las siguientes probabilidades:
a) Que el número de retrasos cubiertos por la póliza no pase de cuatro por año
Sea X número de retrasos,
p(X)=1/1000
,
n=4000
, y
n⋅p=4<10
.
Por esto se puede calcular la probabilidad con Poisson usando
λ=n⋅p=4
Se puede aproximar una distribución Binomial o Poisson a continua Normal.
Binomial:
Valor esperado
E[x]=n∗p
Varianza
V[x]=n∗p∗(1−p)
Poisson:
Valor esperado
E[x]=λ=μ
Varianza
V[x]=λ=μ
Normal:
Valor esperado
E[x]=μ
Varianza
V[x]=σ2
Se puede aproximar Binomial a Normal si
n⋅p>5
Se puede aproximar Poisson a Normal si
λ>10
Aproximación por continuidad o Regla de Yales
P(x=k)=P(k−0.5≤X≤k+0.5)
P(x≤k)=P(X≤k+0.5)
NOTA: Se puede aplicar para el caso de lanzamiento de un dado mil veces.
Introducción a la Inferencia Estadística
Inferencia estadística: Son las afirmaciones válidas acerca de la población o proceso basadas en la información contenida en la muestra.
Estadístico: Función de los datos muestras que no contiene parámetros desconocidos (medidas de tendencia central: media, medidas de dispersión: varianza, desviación estándar)
Distribución de probabilidad de X: Relaciona el conjunto de valores de X con la probabilidad asociada con cada uno de estos valores.
Estimador puntual: Estadístico que estima un valor específico de un parámetro (media poblacional,
μ^
).
Ejemplo
La media poblacional es un estimador de la media muestral
μ^=X
Se pueden proponer tantos estimadores para los parámetros como se quiera. (Se puede calcular el valor esperado)
En lo que sigue se denotará como parámetro
θ
y estimador del parámetro
θ^
En la Población tenemos parámetros, media (
μ
), varianza (
σ2
), desviación estándar (
σ
) y proporción (
p
).
En la muestra tenemos estadísticos, media muestral (
X
), varianza muestral (
s2
), desviación estándar (
s
) y proporción (
p^
).
Un ESTIMADOR de los PARÁMETROS de la población son los ESTADISTICOS de una muestra. Se dice que el valor esperado del estadístico muestral (
E[θ^]
) es el parámetro poblacional (
θ
). Es decir:
E[X]=μ
,
E[s2]=σ2
Lo anterior implica lo siguiente:
E[X±Y]=E[X]+E[Y]
E[X⋅Y]=E[X]⋅E[Y]
E[k⋅X]=k⋅E[X]
Para la varianza, el mejor estimador es la cuasivarianza. Así como se encuentran valores esperados, se puede encontrar la varianza. El que tenga una variable pequeña es el mejor estimador.
V[X±Y]=V[X]+V[Y]
V[k⋅X]=k2⋅V[X]
La varianza es la diferencia (qué tan cerca) o variabilidad de las muestras alrededor de la media.
V[k]=0
Propiedades de los estimadores
Un estimador es insesgado, si se verifica que
E[θ^]=θ
.
En caso de no ser insesgado, es sesgado y este está dado por
E[θ^]−θ
.
Eficiencia es el estimador con menos varianza: Sean
θ1^
y
θ2^
dos estimadores insesgados de
θ
. Diremos que
θ1^
es más eficiente que
θ2^
si se verifica que
V(θ1^)<V(θ2^)
Error cuadrático medio:
ECM(θ^)=V(θ^)+sesgo(θ^)2
Ejemplo
Verificar si los siguientes estimadores son insesgados. Si tiene por media poblacional
μ
y desviación típica
σ
. ¿Cuál es más eficiente?
Estimación intervalo de confianza para la varianza
Para dicha estimación debe ser conocido el valor de la varianza o desviación estándar o típica (el estadístico); es decir
s2
donde:
σ2∈(χα/2,n−12(n−1)s2,χ1−α/2,n−12(n−1)s2)
χα/2,n−12(Chi cuadrado)
Estimación Intervalo de confianza para la varianza de dos poblaciones
Para dicha estimación debge ser conocido el valor de las varianza o desviaciones estándar o típica (el estadístico); es decir:
s12
,
s22
donde
Tamaño de la muestra
Se considera el error como
Contrastes de hipótesis
Hipótesis estadística Es una afirmación sobre los valores de los parámetros de una població o proceso, que puede probarse a partir de la información contenida en una muestra.
Hipótesis nula:
H0 Es considerada como la que hace referencia al valor del parámetro que se quiere probar como verdadero.
Hipótesis alternativa:
H1 Corresponde a la falsedad o estableciendo que el parámetro puede ser mayor, menor o igual, de acuerdo con la propuesta hecha en la hipótesis nula.
Estadístico de prueba o contraste Número calculado a partir de los datos y de
H0
, cuya magnitud permite discernir si se rechaza o no la hipótesis nula.
Región de rechazo Es el conjunto de posibles valores del estadístico de prueba que llevan a rechazar la hipótesis nula.
Nivel de significaciónα
es el recíproco de la confianza, el cual debe ser fijado antes de escoger la muestra.
Observación Los tests de hipótesis pueden ser unilaterales o bilaterales.
Para una sola variable, si la varianza poblacional es conocida, entonces el estadístico de prueba o contraste:
Región de rechazo:
Para dos poblaciones, si las varianzas poblacionales son conocidas, entonces el estadístico de prueba o constraste:
La región de rechazo es
Aquí se usa distribución normal.
Para dos muestras, si las varianzas poblacionales son desconocidas, entonces el estadístico de prueba o constraste:
La región de rechazo es
Si las varianzas poblacionales NO son conocidas, entonces el estadístico de prueba o contraste es
Y la región de rechazo será
Aquí se usa t-student.
Bibliografía
Curso "Herramientas de Estadística", Master Universitario en Inteligencia Artificial.
Top comments (0)
Subscribe
For further actions, you may consider blocking this person and/or reporting abuse
We're a place where coders share, stay up-to-date and grow their careers.
Top comments (0)