Tipos de estimaciones estadísticas. Evaluación estadística

Plan de lectura:

    El concepto de evaluación

    Propiedades de las estimaciones estadísticas

    Métodos para encontrar estimaciones puntuales

    Estimación de parámetros de intervalo

    Intervalo de confianza para la expectativa matemática con una varianza conocida de una población normalmente distribuida.

    Distribución chi-cuadrado y distribución de Student.

    Intervalo de confianza para la expectativa matemática de una variable aleatoria que tiene una distribución normal con una varianza desconocida.

    Intervalo de confianza para la desviación estándar de la distribución normal.

Bibliografía:

    Wentzel, ES Teoría de la probabilidad [Texto] / E.S. Wentzel. - M.: Escuela superior, 2006. - 575 p.

    Gmurman, V. E. Teoría de la probabilidad y estadística matemática [Texto] / V.E. Gmurman. - M.: Escuela superior, 2007. - 480 p.

    Kremer, N.Sh. Teoría de la probabilidad y estadística matemática [Texto] / N.Sh. Kremer - M: UNITI, 2002. - 543 p.

P.1. El concepto de evaluación

Distribuciones como binomial, exponencial, normal son familias de distribuciones que dependen de uno o más parámetros. Por ejemplo, la distribución exponencial con densidad de probabilidad depende de un parámetro λ, la distribución normal
- a partir de dos parámetros metro y σ. Por regla general, es claro a partir de las condiciones del problema en estudio qué familia de distribuciones se está discutiendo. Sin embargo, los valores específicos de los parámetros de esta distribución, que se incluyen en las expresiones de las características de la distribución que nos interesan, siguen siendo desconocidos. Por lo tanto, es necesario conocer al menos un valor aproximado de estas cantidades.

Deje que la ley de distribución de la población general se defina hasta los valores de los parámetros incluidos en su distribución
, algunos de los cuales pueden ser conocidos. Una de las tareas de la estadística matemática es encontrar estimaciones de parámetros desconocidos a partir de una muestra de observaciones.
de la población en general. La estimación de parámetros desconocidos consiste en construir una función
de una muestra aleatoria tal que el valor de esta función es aproximadamente igual al parámetro desconocido estimado θ . Función llamó Estadísticas parámetro θ .

Estadístico evaluación(en adelante sólo evaluación) parámetro θ Se llama distribución teórica a su valor aproximado, dependiendo de los datos elegidos.

Calificación es una variable aleatoria, porque es una función de variables aleatorias independientes
; si hace una muestra diferente, entonces la función, en términos generales, tomará un valor diferente.

Hay dos tipos de estimaciones: punto e intervalo.

punteado se llama una estimación determinada por un solo número. Con un pequeño número de observaciones, estas estimaciones pueden conducir a grandes errores. Para evitarlos, se utilizan estimaciones de intervalo.

Intervalo se denomina estimación, que está determinada por dos números: los extremos del intervalo, en el que el valor estimado está encerrado con una probabilidad dada θ .

P. 2 Propiedades de las estimaciones estadísticas

el valor
llamó precisión de la evaluación. Lo menos
, mejor, con mayor precisión se determina el parámetro desconocido.

Se impone una serie de requisitos a la estimación de cualquier parámetro, que debe cumplir para estar "cerca" del valor real del parámetro, es decir ser en cierto sentido una evaluación "benigna". La calidad de una estimación se determina comprobando si tiene las propiedades de imparcialidad, eficiencia y consistencia.

Calificación parámetro θ llamó imparcial(sin errores sistemáticos) si la media de la estimación es igual al valor real θ :

. (1)

Si la igualdad (1) no se cumple, entonces la estimación llamó desplazado(con errores sistemáticos). Este sesgo puede deberse a errores en la medición, el conteo o la naturaleza no aleatoria de la muestra. Los errores sistemáticos conducen a la sobreestimación o subestimación.

Para algunos problemas de estadística matemática, puede haber varias estimaciones no sesgadas. Por lo general, se da preferencia al que tiene la menor dispersión (dispersión).

Calificación llamó eficaz si tiene la varianza más pequeña entre todas las estimaciones insesgadas posibles del parámetro θ .

Dejar D() es la varianza mínima, y
es la varianza de cualquier otro estimador insesgado parámetro θ . Entonces la eficiencia de la estimación es igual a

. (2)

Está claro que
. Cuanto más cerca
a 1, más eficiente es la evaluación . si un
a
, entonces la estimación se llama asintóticamente eficiente.

Comentario: Si puntuación desplazado, entonces la pequeñez de su dispersión no significa la pequeñez de su error. Tomando, por ejemplo, como estimación del parámetro θ algún número , obtenemos una estimación incluso con varianza cero. Sin embargo, en este caso, el error (error)
puede ser arbitrariamente grande.

Calificación llamó saludable, si con un aumento en el tamaño de la muestra (
) la estimación converge en probabilidad al valor exacto del parámetro θ , es decir. si por alguna

. (3)

Coherencia de la evaluación parámetro θ significa que con el crecimiento norte calidad de la evaluación del tamaño de la muestra esta mejorando.

Teorema 1. La media de la muestra es una estimación imparcial y consistente de la expectativa.

Teorema 2. La varianza muestral corregida es una estimación imparcial y consistente de la varianza.

Teorema 3. La función de distribución empírica de la muestra es una estimación imparcial y consistente de la función de distribución de una variable aleatoria.

Las distribuciones en estadística matemática se caracterizan por muchos parámetros estadísticos. La estimación de parámetros de distribución desconocidos basados ​​en varios datos de muestra permite construir distribuciones de una variable aleatoria.

Encuentre una estimación estadística de un parámetro de distribución desconocido: encuentre una función de las variables aleatorias observadas, que dará un valor aproximado del parámetro estimado.

Las estimaciones estadísticas se pueden dividir en imparciales, sesgadas, eficientes y consistentes.

Definición 1

Estimador imparcial-- estimación estadística $Q^*$, que, para cualquier valor del tamaño de la muestra, tiene una expectativa matemática igual al parámetro estimado, es decir

Definición 2

Estimación sesgada-- estimación estadística $Q^*$, que, para cualquier valor del tamaño de la muestra, tiene una expectativa matemática que no es igual al parámetro estimado, es decir

Definición 4

Evaluación consistente-- estimación estadística, en la cual, con un tamaño de muestra que tiende a infinito, tiende en probabilidad al parámetro estimado $Q.$

Definición 5

Evaluación consistente-- una estimación estadística, en la que, con un tamaño de muestra que tiende a infinito, la varianza de la estimación insesgada tiende a cero.

Medias generales y muestrales

Definición 6

Promedio general-- la media aritmética de los valores de la variante de la población general.

Definición 7

Muestra promedio-- la media aritmética de los valores de la variante de la muestra de población.

Los valores de la media general y muestral se pueden encontrar utilizando las siguientes fórmulas:

  1. Si los valores de la variante $x_1,\ x_2,\dots,x_k$ tienen, respectivamente, las frecuencias $n_1,\ n_2,\dots,n_k$, entonces
  1. Si los valores de la variante $x_1,\x_2,\dots,x_k$ son distintos, entonces

Relacionado con este concepto está el concepto de desviación de la media. Este valor se encuentra mediante la siguiente fórmula:

La desviación media tiene las siguientes propiedades:

    $\sum(n_i\left(x_i-\overline(x)\right)=0)$

    El valor medio de la desviación es cero.

Desviaciones generales, muestrales y corregidas

Otro de los parámetros principales es el concepto de varianza general y muestral:

Variación general:

Variación de la muestra:

Estos conceptos también están asociados con las desviaciones estándar general y muestral:

Como estimación de la varianza general se introduce el concepto de varianza corregida:

También se introduce el concepto de desviación estándar corregida:

Ejemplo de solucion de problema

Ejemplo 1

La población viene dada por la siguiente tabla de distribución:

Foto 1.

Encuentre para él la media general, la varianza general, la desviación estándar general, la varianza corregida y la desviación estándar corregida.

Para solucionar este problema, primero haremos una tabla de cálculo:

Figura 2.

El valor de $\overline(x_v)$ (media muestral) se encuentra mediante la fórmula:

\[\overline(x_in)=\frac(\sum\limits^k_(i=1)(x_in_i))(n)\]

\[\overline(x_in)=\frac(\sum\limits^k_(i=1)(x_in_i))(n)=\frac(87)(30)=2,9\]

Encontremos la varianza general usando la fórmula:

Desviación estándar general:

\[(\sigma)_v=\sqrt(D_v)\aprox. 1,42\]

Varianza corregida:

\[(S^2=\frac(n)(n-1)D)_in=\frac(30)(29)\cdot 2.023\approx 2.09\]

Desviación estándar corregida.

Que se requiera estudiar el signo cuantitativo de la población general. Supongamos que, a partir de consideraciones teóricas, fue posible establecer qué distribución tiene una característica. Surge el problema de estimar los parámetros que determinan esta distribución. Por ejemplo, si se sabe de antemano que el rasgo en estudio se distribuye en la población general de acuerdo con la ley normal, entonces es necesario estimar la expectativa matemática y la desviación estándar, ya que estos dos parámetros determinan completamente la distribución normal. Si hay razones para creer que la característica tiene una distribución de Poisson, entonces es necesario estimar el parámetro que determina esta distribución. Por lo general, solo hay datos de muestra obtenidos como resultado de las observaciones: , , ... , . A través de estos datos y expresar el parámetro estimado. Considerando , , ... , como valores de variables aleatorias independientes , , ... , , podemos decir que encontrar una estimación estadística del parámetro desconocido de la distribución teórica significa encontrar una función de las variables aleatorias observadas, lo que da un valor aproximado del parámetro estimado.

Asi que, evaluación estadística El parámetro desconocido de la distribución teórica se denomina función de las variables aleatorias observadas. La evaluación estadística de un parámetro desconocido de la población general por un número se llama punto. Las siguientes estimaciones puntuales se consideran a continuación: sesgadas e imparciales, efectivas y consistentes.

Para que las estimaciones estadísticas den buenas aproximaciones de los parámetros estimados, deben cumplir ciertos requisitos. Vamos a especificar estos requisitos. Sea una estimación estadística del parámetro desconocido de la distribución teórica. Suponga que se encuentra una estimación basada en el volumen de la muestra. Repitamos el experimento, es decir, extraeremos de la población general otra muestra del mismo tamaño y, utilizando sus datos, encontraremos una estimación, etc. Obtendremos números , , ... , , que serán diferentes de El uno al otro. Así, la estimación se puede considerar como una variable aleatoria, y los números , , ... , - como sus posibles valores.

Si la estimación da un valor aproximado con exceso, entonces el número encontrado a partir de los datos de la muestra ( ) será mayor que el valor real. En consecuencia, la esperanza matemática (valor medio) de la variable aleatoria será mayor que , es decir, . Si da un valor aproximado con desventaja, entonces .

Así, el uso de una estimación estadística, cuya expectativa matemática no es igual al parámetro estimado, conduciría a errores sistemáticos. Por lo tanto, es necesario exigir que la expectativa matemática de la estimación sea igual al parámetro estimado. El cumplimiento elimina los errores sistemáticos.

imparcial llamada estimación estadística, cuya expectativa matemática es igual al parámetro estimado, es decir, .

Desplazado llamada estimación estadística, cuya expectativa matemática no es igual al parámetro estimado.

Sin embargo, es un error suponer que una estimación no sesgada siempre da una buena aproximación del parámetro estimado. De hecho, los posibles valores pueden estar muy dispersos alrededor de su valor medio, es decir, la varianza del valor puede ser significativa. En este caso, la estimación obtenida a partir de los datos de una muestra, por ejemplo, puede resultar muy alejada de su valor medio y, por tanto, del propio parámetro estimado. Tomando como valor aproximado, cometeríamos un gran error. Si requiere que la dispersión del valor sea pequeña, se excluirá la posibilidad de cometer un gran error. Por lo tanto, se imponen requisitos de eficiencia a la evaluación estadística.

eficiente se llama la estimación estadística que (para un tamaño de muestra dado) tiene la varianza más pequeña posible. Al considerar muestras de gran volumen, las estimaciones estadísticas están sujetas al requisito de consistencia.

Saludable se llama estimación estadística, que tiende en probabilidad al parámetro estimado. Por ejemplo, si la varianza del estimador insesgado en tiende a cero, entonces dicho estimador también resulta ser consistente.

Consideremos la cuestión de qué características de la muestra estiman mejor la media general y la varianza en términos de falta de sesgo, eficiencia y consistencia.

Estudiemos una población general discreta con respecto a un atributo cuantitativo. Secundaria general se llama la media aritmética de los valores de la característica de la población general. Se puede calcular mediante fórmulas o , donde son los valores del signo de la población general de volumen , son las frecuencias correspondientes, y .

De la población general, como resultado de observaciones independientes sobre un rasgo cuantitativo, se extrae una muestra de volumen con los valores del rasgo . Muestra promedio se llama la media aritmética de la muestra. Se puede calcular mediante fórmulas o , donde son los valores del atributo en el conjunto muestral de volumen , son las frecuencias correspondientes, y .

Si se desconoce la media general y se requiere estimarla a partir de los datos de la muestra, entonces la media de la muestra, que es una estimación no sesgada y consistente, se toma como una estimación de la media general. De ello se deduce que si se utilizan varias muestras de un volumen suficientemente grande de la misma población general para encontrar medias muestrales, entonces serán aproximadamente iguales entre sí. esta es la propiedad estabilidad de las medias muestrales.

Tenga en cuenta que si las varianzas de dos poblaciones son iguales, entonces la proximidad de las medias muestrales a las generales no depende de la relación entre el tamaño de la muestra y el tamaño de la población general. Depende del tamaño de la muestra: cuanto mayor es el tamaño de la muestra, menos difiere la media de la muestra de la general.

Para caracterizar la dispersión de los valores de un atributo cuantitativo de la población general en torno a su valor medio, se introduce una característica resumen: la varianza general. Variación general llamado la media aritmética de las desviaciones al cuadrado de los valores del signo de la población general de su valor medio, que se calcula mediante las fórmulas: , o .

Para caracterizar la dispersión de los valores observados de un atributo cuantitativo de la muestra en torno a su valor medio, se introduce una característica de resumen: la varianza de la muestra. Varianza de la muestra llamado la media aritmética de las desviaciones al cuadrado de los valores observados de la característica de su valor medio, que se calcula mediante las fórmulas: , o .

Además de la varianza, para caracterizar la dispersión de los valores del atributo de la población general (muestra) alrededor de su valor promedio, utilizan una característica de resumen: la desviación estándar. Desviación estándar general llamada raíz cuadrada de la varianza general: . Desviación estándar de la muestra llamada raíz cuadrada de la varianza de la muestra:

Extraiga una muestra de volumen de la población general como resultado de observaciones independientes sobre un rasgo cuantitativo. Se requiere estimar la varianza general desconocida a partir de los datos de la muestra. Si tomamos la varianza de la muestra como una estimación de la varianza general, esta estimación conducirá a errores sistemáticos, dando un valor subestimado de la varianza general. Esto se explica por el hecho de que la varianza muestral es una estimación sesgada; en otras palabras, la media de la varianza muestral no es igual a la varianza general estimada, sino que es igual a .

Es fácil corregir la varianza de la muestra para que su media sea igual a la varianza general. Para hacer esto, basta con multiplicar por una fracción. Como resultado, obtenemos la varianza corregida, que generalmente se denota por . La varianza corregida será una estimación no sesgada de la varianza general: .

2. Estimaciones de intervalo.

Junto con la estimación puntual, la teoría estadística de la estimación de parámetros trata cuestiones de estimación por intervalos. El problema de la estimación de intervalos se puede formular de la siguiente manera: a partir de los datos de la muestra, construya un intervalo numérico, con respecto al cual, con una probabilidad preseleccionada, podemos decir que el parámetro estimado se encuentra dentro de este intervalo. La estimación por intervalos es especialmente necesaria para un pequeño número de observaciones, cuando la estimación puntual es en gran medida aleatoria y, por lo tanto, no muy fiable.

Intervalo de confianza para un parámetro, dicho intervalo se llama, con respecto al cual es posible, con una probabilidad preseleccionada cercana a uno, afirmar que contiene un valor desconocido del parámetro, es decir . Cuanto menor sea el número de la probabilidad seleccionada, más precisa será la estimación del parámetro desconocido. Y viceversa, si este número es grande, entonces la estimación realizada con este intervalo es de poca utilidad para la práctica. Dado que los extremos del intervalo de confianza dependen de los elementos de la muestra, los valores de y pueden cambiar de una muestra a otra. La probabilidad suele denominarse probabilidad de confianza (confiabilidad). Por lo general, la confiabilidad de la estimación se establece de antemano y se toma como valor un número cercano a uno. La elección de la probabilidad de confianza no es un problema matemático, sino que está determinada por el problema específico que se está resolviendo. La mayoría de las veces, la confiabilidad se establece en ; ; .

Demos sin derivación el intervalo de confianza para la media general con un valor conocido de la desviación estándar, siempre que la variable aleatoria (atributo cuantitativo) se distribuya normalmente:

donde es un número predeterminado cercano a uno, y los valores de la función se dan en el Apéndice 2.

El significado de esta relación es el siguiente: se puede afirmar con seguridad que el intervalo de confianza ( ) cubre el parámetro desconocido , la precisión de la estimación es . El número se determina a partir de la igualdad , o . Según la tabla (Apéndice 2), se encuentra un argumento que corresponde al valor de la función de Laplace igual a .

Ejemplo 1. La variable aleatoria tiene una distribución normal con una desviación estándar conocida. Encuentre los intervalos de confianza para estimar la media general desconocida a partir de las medias muestrales si se dan el tamaño de la muestra y la confiabilidad de la estimación.

Solución. Encontremos . De la proporción obtenemos que . Según la tabla (Apéndice 2) encontramos. Encuentre la precisión de la estimación . Los intervalos de confianza serán: . Por ejemplo, si , entonces el intervalo de confianza tiene los siguientes límites de confianza: ; . Así, los valores del parámetro desconocido, consistentes con los datos de la muestra, satisfacen la desigualdad .

El intervalo de confianza para la media general de la distribución normal de una característica con un valor desconocido de la desviación estándar viene dado por la expresión .

De esto se deduce que se puede afirmar con seguridad que el intervalo de confianza cubre el parámetro desconocido.

Hay tablas preparadas (Apéndice 4), con las cuales, dado y encontrar la probabilidad , y viceversa, dado y se puede encontrar.

Ejemplo 2. El signo cuantitativo de la población general se distribuye normalmente. Con base en el volumen de la muestra, se encontraron la media de la muestra y la desviación estándar corregida. Estimar la media poblacional desconocida utilizando un intervalo de confianza con fiabilidad.

Solución. Encontremos . Usando la tabla (Apéndice 4) para y encontramos:. Encontremos los límites de confianza:

Entonces, con confiabilidad, el parámetro desconocido está encerrado en un intervalo de confianza.

3. El concepto de hipótesis estadística. Enunciado General del Problema de la Prueba de Hipótesis.

La prueba de hipótesis estadística está estrechamente relacionada con la teoría de la estimación de parámetros. En las ciencias naturales, la tecnología y la economía, muchas veces para esclarecer uno u otro hecho aleatorio se recurre al planteamiento de hipótesis que pueden ser contrastadas estadísticamente, es decir, a partir de los resultados de las observaciones en una muestra aleatoria. Por debajo hipótesis estadísticas se entiende por hipótesis que se refieren al tipo oa parámetros individuales de la distribución de una variable aleatoria. Así, por ejemplo, la hipótesis estadística es que la distribución de la productividad laboral de los trabajadores que realizan el mismo trabajo en las mismas condiciones tiene una ley de distribución normal. También será estadística la hipótesis de que las dimensiones promedio de las piezas producidas en el mismo tipo de máquinas paralelas no difieren entre sí.

La hipótesis estadística se llama simple si determina de manera única la distribución de la variable aleatoria, de lo contrario la hipótesis se llama complejo. Por ejemplo, una hipótesis simple es la suposición de que una variable aleatoria se distribuye de acuerdo con la ley normal con expectativa matemática igual a cero y varianza igual a uno. Si se supone que una variable aleatoria tiene una distribución normal con una varianza igual a uno, y la expectativa matemática es un número del segmento , entonces esta es una hipótesis compleja. Otro ejemplo de hipótesis compleja es la suposición de que una variable aleatoria continua toma un valor del intervalo con probabilidad, en este caso la distribución de la variable aleatoria puede ser cualquiera de la clase de distribuciones continuas.

A menudo se conoce la distribución de una cantidad y es necesario probar las suposiciones sobre el valor de los parámetros de esta distribución utilizando una muestra de observaciones. Tales hipótesis se denominan paramétrico.

La hipótesis a probar se llama hipótesis nula y se denota. Junto con la hipótesis, se considera una de las hipótesis alternativas (en competencia). Por ejemplo, si se está probando la hipótesis de que el parámetro es igual a algún valor dado, es decir, : , entonces una de las siguientes hipótesis puede considerarse como hipótesis alternativa: : ; : ; : ; : , donde es el valor establecido, . La elección de una hipótesis alternativa está determinada por la formulación específica del problema.

La regla por la cual se toma la decisión de aceptar o rechazar una hipótesis se denomina criterio. Dado que la decisión se toma sobre la base de una muestra de observaciones de la variable aleatoria, es necesario elegir un estadístico apropiado, llamado en este caso estadístico de prueba. Al probar una hipótesis paramétrica simple: se elige la misma estadística como estadística de criterio que para la estimación del parámetro.

La prueba de hipótesis estadística se basa en el principio de que los eventos de baja probabilidad se consideran imposibles y los eventos de alta probabilidad se consideran ciertos. Este principio se puede implementar de la siguiente manera. Antes del análisis de la muestra, se fija una pequeña probabilidad, llamada Nivel significativo. Sea un conjunto de valores de estadísticos , y sea un subconjunto tal que, bajo la condición de que la hipótesis sea verdadera, la probabilidad de que caiga el estadístico de criterio es igual a , es decir .

Indicar por el valor muestral de la estadística calculada a partir de la muestra de observaciones. El criterio se formula de la siguiente manera: rechazar la hipótesis si ; aceptar la hipótesis si . Una prueba basada en el uso de un nivel predeterminado de significancia se llama criterio de significación. El conjunto de todos los valores del estadístico de criterio para el cual se toma la decisión de rechazar la hipótesis se denomina área crítica; el area se llama área de aceptación hipótesis

El nivel de significación determina el tamaño de la región crítica. La posición de la región crítica en el conjunto de valores del estadístico depende de la formulación de la hipótesis alternativa. Por ejemplo, si la hipótesis se prueba: y la hipótesis alternativa se formula como: (), entonces la región crítica se ubica en la “cola” derecha (izquierda) de la distribución de estadísticas, es decir, tiene la forma de desigualdad : (), donde y son aquellos valores de estadísticos que se aceptan con probabilidades, respectivamente, y siempre que la hipótesis sea cierta. En este caso, el criterio se denomina unilateral, respectivamente, diestro y zurdo. Si la hipótesis alternativa se formula como : , entonces la región crítica se ubica en ambas “colas” de la distribución , es decir, está determinada por el conjunto de desigualdades y ; en este caso el criterio se llama bilateral.

En la fig. 30 muestra la ubicación de la región crítica para varias hipótesis alternativas. Aquí está la densidad de distribución de las estadísticas de criterio siempre que la hipótesis sea verdadera, es el área de aceptación de la hipótesis, .

Por lo tanto, probar una hipótesis estadística paramétrica utilizando una prueba de significación se puede dividir en los siguientes pasos:

1) formular hipótesis comprobables () y alternativas ();

2) asignar un nivel de significancia; como inconsistente con los resultados de las observaciones; si , entonces acepte la hipótesis , es decir, suponga que la hipótesis no contradice los resultados de las observaciones.

Por lo general, cuando se realizan los puntos 4 - 7, se utilizan estadísticas, cuyos cuantiles se tabulan: estadísticas con una distribución normal, estadísticas de Student, estadísticas de Fisher.

Ejemplo 3. De acuerdo con los datos del pasaporte de un motor de automóvil, el consumo de combustible por 100 kilometros el kilometraje es 10 litros. Como resultado del rediseño del motor, se espera que disminuya el consumo de combustible. Se están realizando pruebas para verificar 25 vehículos seleccionados al azar con un motor mejorado, y el promedio muestral de consumo de combustible por 100 kilometros kilometraje de acuerdo con los resultados de la prueba fue 9,3 litros. Suponga que la muestra de consumo de combustible se obtiene de una población normalmente distribuida con media y varianza. Siempre que la hipótesis de la región crítica para el estadístico original sea verdadera, es decir, igual al nivel de significación. Encuentre las probabilidades de errores de primer y segundo tipo para un criterio con tal región crítica. tiene una distribución normal con media igual a y varianza igual a . Encontramos la probabilidad de un error de segundo tipo mediante la fórmula (11.2):

Por tanto, de acuerdo con el criterio aceptado, el 13,6% de los vehículos con consumo de combustible 9l sobre el 100 kilometros kilometraje se clasifican como vehículos con consumo de combustible 10 litros.

4. Frecuencias teóricas y empíricas. Criterios de consentimiento.

Frecuencias empíricas- frecuencias obtenidas como resultado de la experiencia (observación). Frecuencias teóricas calculado por fórmulas. Para una distribución normal, se pueden encontrar de la siguiente manera:

, (11.3)

Estimaciones estadísticas de los parámetros de la población general. Hipótesis estadísticas

CLASE 16

Que se requiera estudiar el signo cuantitativo de la población general. Supongamos que, a partir de consideraciones teóricas, fue posible establecer qué distribución tiene una característica. Esto da lugar al problema de estimar los parámetros que determinan esta distribución. Por ejemplo, si se sabe que el rasgo en estudio se distribuye en la población general de acuerdo con la ley normal, entonces es necesario estimar (encontrar aproximadamente) la expectativa matemática y la desviación estándar, ya que estos dos parámetros determinan completamente la distribución normal. . Si hay razones para creer que la característica tiene una distribución de Poisson, entonces es necesario estimar el parámetro que determina esta distribución.

Por lo general, en la distribución, el investigador tiene solo datos de muestra, por ejemplo, los valores de un rasgo cuantitativo obtenidos como resultado de las observaciones (en adelante, se supone que las observaciones son independientes). A través de estos datos y expresar el parámetro estimado.

Considerando como valores de variables aleatorias independientes , podemos decir que encontrar una estimación estadística de un parámetro desconocido de una distribución teórica significa encontrar una función de las variables aleatorias observadas, que da un valor aproximado del parámetro estimado. Por ejemplo, como se mostrará a continuación, para estimar la expectativa matemática de una distribución normal se utiliza la función (media aritmética de los valores observados de una característica):

.

Asi que, evaluación estadística El parámetro desconocido de la distribución teórica se denomina función de las variables aleatorias observadas. La estimación estadística de un parámetro desconocido de la población general, escrita como un solo número, se llama punto. Considere las siguientes estimaciones puntuales: sesgada e imparcial, efectiva y consistente.

Para que las estimaciones estadísticas den “buenas” aproximaciones de los parámetros estimados, deben cumplir ciertos requisitos. Vamos a especificar estos requisitos.

Sea una estimación estadística del parámetro desconocido de la distribución teórica. Suponga que al muestrear el volumen, se encuentra una estimación. Repitamos el experimento, es decir, extraeremos otra muestra del mismo tamaño de la población general y, a partir de sus datos, encontraremos una estimación, etc. Repitiendo el experimento muchas veces, obtenemos los números , que, en términos generales, diferirán entre sí. Así, la estimación se puede considerar como una variable aleatoria, y los números como posibles valores.

Es claro que si la estimación da un valor aproximado con exceso, entonces cada número encontrado a partir de los datos de las muestras será mayor que el valor verdadero de . Por tanto, en este caso, el valor matemático (valor medio) de la variable aleatoria será mayor que , es decir, . Obviamente, si da un valor aproximado con desventaja, entonces .


Por lo tanto, el uso de una estimación estadística, cuya expectativa matemática no es igual al parámetro estimado, conduce a errores sistemáticos (de un signo). Por esta razón, es natural exigir que la expectativa matemática de la estimación sea igual al parámetro estimado. Aunque el cumplimiento de este requisito no eliminará, en general, los errores (algunos valores son mayores que y otros menores que ), se producirán con la misma frecuencia errores de distinto signo. Sin embargo, el cumplimiento del requisito garantiza la imposibilidad de obtener errores sistemáticos, es decir, elimina los errores sistemáticos.

imparcial llamado estimación estadística (error), cuya expectativa matemática es igual al parámetro estimado para cualquier tamaño de muestra, es decir, .

Desplazado llamada estimación estadística, cuya expectativa matemática no es igual al parámetro estimado para cualquier tamaño de muestra, es decir.

Sin embargo, sería un error suponer que una estimación no sesgada siempre da una buena aproximación del parámetro estimado. De hecho, los posibles valores pueden estar muy dispersos alrededor de su media, es decir, la varianza puede ser significativa. En este caso, la estimación obtenida a partir de los datos de una muestra, por ejemplo, puede resultar muy alejada del valor medio y, por tanto, del propio parámetro estimado. Así, tomando como valor aproximado, cometeremos un gran error. Sin embargo, si se requiere que la varianza sea pequeña, se excluirá la posibilidad de cometer un gran error. Por ello, se impone la exigencia de eficiencia a la evaluación estadística.

eficiente llamada estimación estadística, que (para un tamaño de muestra dado) tiene la varianza más pequeña posible.

Saludable se llama estimación estadística, que tiende en probabilidad al parámetro estimado, es decir, la igualdad es verdadera:

.

Por ejemplo, si la varianza del estimador insesgado en tiende a cero, entonces dicho estimador también resulta ser consistente.

Considere la cuestión de qué características de la muestra estiman mejor la media general y la varianza en términos de falta de sesgo, eficiencia y consistencia.

Sea estudiada una población general discreta con respecto a algún atributo cuantitativo.

Secundaria general se llama la media aritmética de los valores de la característica de la población general. Se calcula mediante la fórmula:

§ - si todos los valores del signo de la población general de volumen son diferentes;

§ – si los valores del signo de la población general tienen frecuencias, respectivamente, y . Es decir, el promedio general es el promedio ponderado de los valores de los rasgos con pesos iguales a las frecuencias correspondientes.

Comentario: dejar que la población del volumen contenga objetos con diferentes valores del atributo. Imagine que un objeto se selecciona al azar de esta colección. La probabilidad de que se recupere un objeto con un valor de característica, por ejemplo, es obviamente igual a . Cualquier otro objeto se puede extraer con la misma probabilidad. Así, el valor de una característica puede considerarse como una variable aleatoria, cuyos valores posibles tienen las mismas probabilidades iguales a . No es difícil, en este caso, encontrar la esperanza matemática:

Entonces, si consideramos la característica examinada de la población general como una variable aleatoria, entonces la expectativa matemática de la característica es igual al promedio general de esta característica: . Obtuvimos esta conclusión asumiendo que todos los objetos de la población general tienen diferentes valores de la característica. Se obtendrá el mismo resultado si asumimos que la población general contiene varios objetos con el mismo valor de atributo.

Generalizando el resultado obtenido a la población general con una distribución continua del atributo, definimos el promedio general como la expectativa matemática del atributo: .

Extraigamos una muestra de volumen para estudiar la población general con respecto a un atributo cuantitativo.

Muestra promedio llamado la media aritmética de los valores de la característica de la muestra de población. Se calcula mediante la fórmula:

§ - si todos los valores del signo de la muestra de población de volumen son diferentes;

§ – si los valores de la característica del conjunto de muestreo tienen, respectivamente, frecuencias y . Es decir, la media muestral es el promedio ponderado de los valores de los rasgos con pesos iguales a las frecuencias correspondientes.

Comentario: la media muestral encontrada a partir de los datos de una muestra es obviamente un cierto número. Si extraemos otras muestras del mismo tamaño de la misma población general, la media muestral cambiará de una muestra a otra. Así, la media muestral puede ser considerada como una variable aleatoria, y por tanto, podemos hablar de las distribuciones (teórica y empírica) de la media muestral y de las características numéricas de esta distribución, en particular, de la media y varianza de la distribución muestral. .

Además, si se desconoce la media general y se requiere estimarla a partir de los datos de la muestra, entonces la media de la muestra se toma como una estimación de la media general, que es una estimación no sesgada y consistente (proponemos probar esta afirmación en nuestro propio). De lo anterior se deduce que si se utilizan varias muestras de un volumen suficientemente grande de la misma población general para encontrar medias muestrales, entonces serán aproximadamente iguales entre sí. esta es la propiedad estabilidad de las medias muestrales.

Tenga en cuenta que si las varianzas de dos poblaciones son iguales, entonces la proximidad de las medias muestrales a las generales no depende de la relación entre el tamaño de la muestra y el tamaño de la población general. Depende del tamaño de la muestra: cuanto mayor es el tamaño de la muestra, menos difiere la media de la muestra de la general. Por ejemplo, si el 1% de los objetos se seleccionan de un conjunto y el 4% de los objetos se seleccionan de otro conjunto, y el volumen de la primera muestra resultó ser mayor que el de la segunda, entonces la media de la primera muestra diferirá menos de la media general correspondiente que la segunda.

muestra de distribución de estimación estadística

Una estimación es una aproximación de los valores del valor deseado, obtenidos sobre la base de los resultados de una observación selectiva. Las estimaciones son variables aleatorias. Brindan la posibilidad de formarse un juicio razonable sobre los parámetros desconocidos de la población general. Un ejemplo de estimación de la media general es la media muestral de la varianza general - varianza muestral, etc.

Para evaluar qué tan “bien” la evaluación cumple con la característica general correspondiente, se han desarrollado 4 criterios: consistencia, imparcialidad, eficiencia y suficiencia. Este enfoque se basa en el hecho de que la calidad de una estimación no está determinada por sus valores individuales, sino por las características de su distribución como variable aleatoria.

Con base en las disposiciones de la teoría de la probabilidad, se puede probar que de características de la muestra como la media aritmética, la moda y la mediana, solo la media aritmética es una estimación consistente, imparcial, eficiente y suficiente de la media general. Esto determina la preferencia otorgada a la media aritmética en otras características de la muestra.

imparcial la evaluación se manifiesta en el hecho de que su expectativa matemática para cualquier tamaño de muestra es igual al valor del parámetro estimado en la población general. Si este requisito no se cumple, entonces la estimación es desplazado.

La condición de estimación insesgada tiene como objetivo eliminar los errores de estimación sistemáticos.

Al resolver problemas de evaluación, también utilizan estimaciones asintóticamente imparciales, por lo que, al aumentar el tamaño de la muestra, la esperanza matemática tiende al parámetro estimado de la población general.

solvencia estimaciones estadísticas se manifiesta en el hecho de que con un aumento en el tamaño de la muestra, la estimación se acerca cada vez más al valor real del parámetro estimado, o, como se suele decir, la estimación converge en probabilidad al parámetro deseado, o tiende a su expectativa matemática. Sólo las estimaciones consistentes tienen importancia práctica.

Esta es la estimación del parámetro no sesgado que tiene la varianza más pequeña para un tamaño de muestra determinado. En la práctica, la varianza de la estimación suele identificarse con el error de la estimación.

Como medidas de eficacia de la evaluación tome la razón de la varianza mínima posible a la varianza de otra estimación.

Una estimación que asegura la integridad del uso de toda la información contenida en la muestra sobre una característica desconocida de la población general se llama suficiente(exhaustivo).

El cumplimiento de las propiedades de las estimaciones estadísticas discutidas anteriormente permite considerar las características de la muestra para estimar los parámetros de la población general de la mejor manera posible.

La tarea más importante de la estadística matemática es obtener las estimaciones estadísticas más racionales y "veraces" de los parámetros deseados de la población general a partir de datos de muestra. Hay dos tipos de inferencia estadística: evaluación estadística; comprobación de hipótesis estadísticas.

La principal tarea de obtener estimaciones estadísticas es seleccionar y justificar las mejores estimaciones que brinden la posibilidad de una evaluación significativa de los parámetros desconocidos de la población general.

El problema de estimar parámetros desconocidos se puede resolver de dos formas:

  • 1. Un parámetro desconocido se caracteriza por un número (punto): se utiliza el método de estimación puntual;
  • 2. estimación de intervalo, es decir, se determina un intervalo en el que se puede encontrar el parámetro deseado con cierta probabilidad.

Estimación de puntos del parámetro desconocido radica en que se toma un valor numérico específico de la estimación de la muestra como la mejor aproximación al parámetro verdadero de la población general, es decir, el parámetro desconocido de la población general se estima por un número (punto) determinada a partir de la muestra. Con este enfoque, siempre existe el riesgo de cometer un error, por lo que la estimación puntual debe complementarse con un indicador del posible error en un cierto nivel de probabilidad.

Su desviación estándar se toma como el error de estimación promedio.

Entonces, la estimación puntual de la media general se puede representar como un intervalo

donde es la media aritmética muestral.

En la estimación puntual, se utilizan varios métodos para obtener estimaciones a partir de datos de muestra:

  • 1. el método de los momentos, en el que los momentos de la población general se sustituyen por los momentos de la muestra;
  • 2. método de mínimos cuadrados;
  • 3. método de máxima verosimilitud.

En muchos problemas, se requiere encontrar no solo una estimación numérica del parámetro de la población general, sino también evaluar su precisión y confiabilidad. Esto es especialmente importante para muestras relativamente pequeñas. Una generalización de una estimación puntual de un parámetro estadístico es su estimación de intervalo- encontrar un intervalo numérico que contenga el parámetro estimado con una cierta probabilidad.

Debido al hecho de que siempre hay algún error al determinar las características generales a partir de datos de muestra, es más práctico determinar el intervalo con el centro en la estimación puntual encontrada, dentro del cual se encuentra el verdadero valor deseado del parámetro estimado de la característica general. se localiza con cierta probabilidad dada. Tal intervalo se llama intervalo de confianza.

Intervalo de confianza es un intervalo numérico que, con una probabilidad r dada, cubre el parámetro estimado de la población general. Esta probabilidad se llama confianza. Probabilidad de confianza r es la probabilidad que puede reconocerse como suficiente en el marco del problema que se está resolviendo para juzgar la fiabilidad de las características obtenidas sobre la base de observaciones muestrales. el valor

la probabilidad de cometer un error se llama Nivel significativo.

Para una estimación selectiva (puntual) Y * (theta) del parámetro Y de la población general con una precisión de ( error marginal) D y probabilidad de confianza r el intervalo de confianza está determinado por la igualdad:

La probabilidad de confianza r permite establecer límites de confianza fluctuación aleatoria del parámetro estudiado Y para una muestra dada.

Los siguientes valores y sus valores correspondientes a menudo se toman como un nivel de confianza niveles de significación

Tabla 1. Niveles de confianza y niveles de significación más utilizados

Por ejemplo, un nivel de significación del 5 por ciento significa lo siguiente: en 5 casos de 100, existe el riesgo de cometer un error al identificar las características de la población a partir de los datos de la muestra. O, dicho de otro modo, en 95 casos de 100, la característica general identificada a partir de la muestra se encontrará dentro del intervalo de confianza.