Tipuri de estimări statistice. Evaluare statistică

Schema cursului:

    Conceptul de evaluare

    Proprietățile estimărilor statistice

    Metode de găsire a estimărilor punctuale

    Estimarea parametrilor de interval

    Interval de încredere pentru așteptarea matematică cu o varianță cunoscută a unei populații distribuite normal.

    Distribuția chi-pătrat și distribuția t a lui Student.

    Interval de încredere pentru așteptarea matematică a unei variabile aleatoare care are o distribuție normală cu varianță necunoscută.

    Interval de încredere pentru abaterea standard a unei distribuții normale.

Bibliografie:

    Wentzel, E.S. Teoria probabilității [Text] / E.S. Wentzel. – M.: Liceu, 2006. – 575 p.

    Gmurman, V.E. Teoria probabilității și statistică matematică [Text] / V.E. Gmurman. - M.: Şcoala superioară, 2007. - 480 p.

    Kremer, N.Sh. Teoria probabilității și statistică matematică [Text] / N.Sh. Kremer - M: UNITATEA, 2002. – 543 p.

P.1. Conceptul de evaluare

Distribuțiile precum binomial, exponențial și normal sunt familii de distribuții care depind de unul sau mai mulți parametri. De exemplu, o distribuție exponențială cu o densitate de probabilitate depinde de un parametru λ, o distribuție normală
- din doi parametri mși σ. Din condițiile problemei studiate, de obicei se vede clar despre ce familie de distribuții vorbim. Cu toate acestea, valorile specifice ale parametrilor acestei distribuții, care sunt incluși în expresiile caracteristicilor de distribuție care ne interesează, rămân necunoscute. Prin urmare, este necesar să se cunoască cel puțin valoarea aproximativă a acestor cantități.

Să fie determinată legea de distribuție a populației generale până la valorile parametrilor incluși în distribuția acesteia
, dintre care unele pot fi cunoscute. Una dintre sarcinile statisticii matematice este de a găsi estimări ale parametrilor necunoscuți dintr-un eșantion de observații
din populația generală. Estimarea parametrilor necunoscuți constă în construirea unei funcții
dintr-un eșantion aleatoriu astfel încât valoarea acestei funcție să fie aproximativ egală cu parametrul necunoscut estimat θ . Funcţie numit statistici parametru θ .

Statistic evaluare(în viitor pur și simplu evaluare) parametru θ Distribuția teoretică se numește valoarea ei aproximativă, în funcție de datele de alegere.

Nota este o variabilă aleatoare, deoarece este o funcție de variabile aleatoare independente
; Dacă faceți un alt eșantion, atunci funcția va lua, în general, o valoare diferită.

Există două tipuri de estimări: punct și interval.

Loc se numește punctaj determinat de un număr. Cu un număr mic de observații, aceste estimări pot duce la erori grave. Pentru a le evita, se folosesc estimări de interval.

Interval este o estimare care este determinată de două numere - capetele intervalului în care valoarea estimată este conținută cu o probabilitate dată θ .

P. 2 Proprietățile estimărilor statistice

mărimea
numit acuratețea evaluării. Mai putin
, cu atât mai bine, cu atât mai precis este determinat parametrul necunoscut.

Evaluarea oricărui parametru este supusă unui număr de cerințe pe care trebuie să le îndeplinească pentru a fi „aproape” de valoarea reală a parametrului, adică fi într-un fel o evaluare „benignă”. Calitatea unei estimări este determinată prin verificarea dacă aceasta are proprietăți de imparțialitate, eficiență și coerență.

Nota parametru θ numit nedeplasate(fără erori sistematice), dacă așteptarea matematică a estimării coincide cu valoarea adevărată θ :

. (1)

Dacă egalitatea (1) nu este valabilă, atunci estimarea numit deplasat(cu erori sistematice). Această părtinire se poate datora erorilor de măsurare, erorilor de numărare sau naturii non-aleatoare a eșantionului. Erorile sistematice duc la supraestimare sau subestimare.

Pentru unele probleme de statistică matematică, pot exista mai multe estimări imparțiale. De obicei, se preferă cel cu cea mai mică împrăștiere (dispersie).

Nota numit efectiv, dacă are cea mai mică varianță dintre toate estimările imparțiale posibile ale parametrului θ .

Lăsa D() este varianța minimă și
– varianța oricărei alte estimări imparțiale parametru θ . Apoi eficiența devizului egal cu

. (2)

Este clar că
. Aproape
la 1, cu atât evaluarea este mai eficientă . Dacă
la
, atunci estimarea se numește eficient asimptotic.

cometariu: Dacă scorul părtinitoare, atunci micimea varianței sale nu indică micimea erorii sale. Luând, de exemplu, ca o estimare a parametrului θ oarecare număr , obținem o estimare chiar și cu varianță zero. Cu toate acestea, în acest caz eroarea (eroarea)
poate fi cât de mare doriți.

Nota numit bogat, dacă odată cu creșterea dimensiunii eșantionului (
) estimarea converge în probabilitate la valoarea exactă a parametrului θ , adică dacă pentru oricine

. (3)

Valabilitatea evaluării parametru θ înseamnă că odată cu creșterea n dimensiunea eșantionului calitatea evaluării se îmbunătățește.

Teorema 1. Media eșantionului este o estimare imparțială și consecventă a așteptărilor matematice.

Teorema 2. Varianța eșantionului corectată este o estimare imparțială și consecventă a varianței.

Teorema 3. Funcția de distribuție empirică a unui eșantion este o estimare imparțială și consecventă a funcției de distribuție a unei variabile aleatoare.

Distribuțiile în statistica matematică sunt caracterizate de mulți parametri statistici. Estimarea parametrilor de distribuție necunoscuți pe baza diferitelor date de eșantion vă permite să construiți distribuții ale unei variabile aleatorii.

Găsiți o estimare statistică a unui parametru de distribuție necunoscut - găsiți o funcție a variabilelor aleatoare observate care va da o valoare aproximativă a parametrului estimat.

Estimările statistice pot fi clasificate ca nepărtinitoare, părtinitoare, eficiente și consecvente.

Definiția 1

Estimare imparțială-- estimarea statistică $Q^*$, care, pentru orice valoare a mărimii eșantionului, are o așteptare matematică egală cu parametrul estimat, adică

Definiția 2

Estimare părtinitoare-- estimarea statistică $Q^*$, care, pentru orice valoare a mărimii eșantionului, are o așteptare matematică care nu este egală cu parametrul estimat, adică

Definiția 4

Evaluare consistentă-- o evaluare statistică în care, cu o dimensiune a eșantionului care tinde spre infinit, probabilitatea tinde către parametrul estimat $Q.$

Definiția 5

Evaluare consistentă-- o estimare statistică în care, pe măsură ce dimensiunea eșantionului tinde spre infinit, varianța estimării nepărtinitoare tinde spre zero.

Medii generale și eșantionare

Definiția 6

Media generală-- media aritmetică a valorilor variantei populației generale.

Definiția 7

Eșantion mediu-- media aritmetică a valorilor populației eșantionului.

Valorile mediei generale și ale eșantionului pot fi găsite folosind următoarele formule:

  1. Dacă valorile opțiunii $x_1,\ x_2,\dots ,x_k$ au, respectiv, frecvențe $n_1,\n_2,\dots ,n_k$, atunci
  1. Dacă valorile opțiunii $x_1,\ x_2,\dots ,x_k$ sunt diferite, atunci

Asociat acestui concept este conceptul de abatere de la medie. Această valoare este găsită folosind următoarea formulă:

Abaterea medie are următoarele proprietăți:

    $\sum(n_i\left(x_i-\overline(x)\right)=0)$

    Abaterea medie este zero.

Variante generale, eșantion și corectate

Un alt dintre parametrii principali este conceptul de varianță generală și de eșantion:

Varianta generala:

Varianta eșantionului:

Abaterile standard generale și de eșantion sunt, de asemenea, asociate cu aceste concepte:

Pentru estimarea varianței generale se introduce conceptul de varianță corectată:

Se introduce și conceptul de abatere standard corectată:

Exemplu de rezolvare a problemei

Exemplul 1

Populația este definită de următorul tabel de distribuție:

Poza 1.

Să găsim pentru aceasta media generală, varianța generală, abaterea standard generală, varianța corectată și abaterea standard corectată.

Pentru a rezolva această problemă, facem mai întâi un tabel de calcul:

Figura 2.

Valoarea $\overline(x_в)$ (media eșantionului) se găsește prin formula:

\[\overline(x_in)=\frac(\sum\limits^k_(i=1)(x_in_i))(n)\]

\[\overline(x_in)=\frac(\sum\limits^k_(i=1)(x_in_i))(n)=\frac(87)(30)=2,9\]

Să găsim varianța generală folosind formula:

Abaterea standard generala:

\[(\sigma )_в=\sqrt(D_в)\aproximativ 1,42\]

Varianta corectata:

\[(S^2=\frac(n)(n-1)D)_в=\frac(30)(29)\cdot 2,023\aproximativ 2,09\]

Abaterea standard corectată.

Să fie necesar să se studieze o caracteristică cantitativă a unei populații generale. Să presupunem că, din considerente teoretice, am putut stabili exact ce distribuție are caracteristica. Se pune problema estimării parametrilor care determină această distribuţie. De exemplu, dacă se știe dinainte că caracteristica studiată este distribuită în populația generală conform unei legi normale, atunci este necesar să se estimeze așteptarea matematică și abaterea standard, deoarece acești doi parametri determină complet distribuția normală. Dacă există motive să credem că o caracteristică are o distribuție Poisson, atunci este necesar să se estimeze parametrul prin care se determină această distribuție. De obicei, sunt disponibile numai date eșantion obținute din observații: , , ... , . Parametrul estimat este exprimat prin aceste date. Considerând , , ... ca valori ale variabilelor aleatoare independente , , ... , , putem spune că găsirea unei estimări statistice a unui parametru necunoscut al unei distribuții teoretice înseamnă găsirea unei funcții de variabile aleatoare observate, ceea ce oferă o estimare aproximativă. valoarea parametrului estimat.

Asa de, evaluare statistică Un parametru necunoscut al unei distribuții teoretice se numește o funcție a variabilelor aleatoare observate. Se numește o estimare statistică a unui parametru necunoscut al populației folosind un număr punct. Sunt luate în considerare următoarele estimări punctuale: părtinitoare și nepărtinitoare, eficiente și consecvente.

Pentru ca estimările statistice să ofere aproximări bune ale parametrilor estimați, acestea trebuie să îndeplinească anumite cerințe. Să indicăm aceste cerințe. Să existe o estimare statistică a unui parametru necunoscut al distribuției teoretice. Să presupunem că s-a găsit o estimare dintr-un eșantion de volum. Să repetăm ​​experimentul, adică vom extrage un alt eșantion de aceeași mărime din populația lor generală și, folosind datele acestuia, vom găsi o estimare etc. Vom obține numere , , ... , care vor fi diferite de la fiecare alte. Astfel, estimarea poate fi considerată ca o variabilă aleatoare, iar numerele , , ... , ca valori posibile ale acesteia.

Dacă estimarea oferă o valoare aproximativă cu un exces, atunci numărul găsit din datele eșantionului ( ) va fi mai mare decât valoarea adevărată. În consecință, așteptarea matematică (valoarea medie) a variabilei aleatoare va fi mai mare decât , adică . Dacă oferă o valoare aproximativă cu un dezavantaj, atunci .

Astfel, utilizarea unei estimări statistice a cărei așteptare matematică nu este egală cu parametrul estimat ar duce la erori sistematice. Prin urmare, este necesar să se ceară ca așteptarea matematică a estimării să fie egală cu parametrul estimat. Respectarea cerinței elimină erorile sistematice.

imparțial se numește estimare statistică, a cărei așteptare matematică este egală cu parametrul estimat, i.e.

Deplasat numită estimare statistică, a cărei așteptare matematică nu este egală cu parametrul estimat.

Cu toate acestea, este o greșeală să presupunem că o estimare imparțială oferă întotdeauna o bună aproximare a parametrului estimat. Într-adevăr, valorile posibile pot fi împrăștiate pe scară largă în jurul valorii lor medii, adică dispersia valorii poate fi semnificativă. În acest caz, estimarea găsită din datele unui eșantion, de exemplu, se poate dovedi a fi foarte îndepărtată de valoarea sa medie și, prin urmare, de parametrul estimat în sine. Dacă am lua ca valoare aproximativă, am face o mare greșeală. Dacă doriți ca varianța unei cantități să fie mică, atunci posibilitatea de a face o eroare mare va fi eliminată. Prin urmare, evaluarea statistică este supusă cerințelor de eficiență.

Efectiv este o estimare statistică care (pentru o anumită dimensiune a eșantionului) are cea mai mică varianță posibilă. Atunci când se iau în considerare eșantioane mari, estimările statistice trebuie să fie consecvente.

Bogat numită estimare statistică, care tinde probabil către parametrul estimat. De exemplu, dacă varianța unei estimări nepărtinitoare la tinde spre zero, atunci o astfel de estimare se dovedește a fi consecventă.

Să luăm în considerare întrebarea care sunt caracteristicile eșantionului care estimează cel mai bine media generală și varianța în termeni de imparțialitate, eficiență și consistență.

Să studiem o populație generală discretă în raport cu o caracteristică cantitativă. Secundar general se numește media aritmetică a valorilor caracteristice populației generale. Poate fi calculat folosind formule sau , unde sunt valorile caracteristicii populației generale de volum , sunt frecvențele corespunzătoare și .

Să fie extras un eșantion de volum cu valori caracteristice din populația generală ca urmare a observațiilor independente ale unei caracteristici cantitative . Media eșantionului se numește media aritmetică a populației eșantionului. Poate fi calculat folosind formule sau , unde sunt valorile caracteristicii din populația eșantionului de volum , sunt frecvențele corespunzătoare și .

Dacă media generală este necunoscută și este necesară estimarea ei folosind datele eșantionului, atunci media eșantionului, care este o estimare imparțială și consecventă, este considerată o estimare a mediei generale. Rezultă că, dacă mediile eșantionului sunt găsite din mai multe eșantioane de o dimensiune suficient de mare din aceeași populație generală, atunci acestea vor fi aproximativ egale între ele. Aceasta este proprietatea stabilitatea mijloacelor de probă.

Rețineți că, dacă variațiile a două populații sunt aceleași, atunci proximitatea mediilor eșantionului de mediile generale nu depinde de raportul dintre dimensiunea eșantionului și dimensiunea populației generale. Depinde de dimensiunea eșantionului: cu cât dimensiunea eșantionului este mai mare, cu atât media eșantionului diferă mai puțin de media generală.

Pentru a caracteriza dispersia valorilor unei caracteristici cantitative a unei populații în jurul valorii sale medii, se introduce o caracteristică sumară - dispersia generală. Varianta generala numită media aritmetică a abaterilor pătrate ale valorilor caracteristicii populației de la valoarea medie a acestora, care se calculează folosind formulele: , sau .

Pentru a caracteriza dispersia valorilor observate ale unei caracteristici cantitative a unui eșantion în jurul valorii sale medii, se introduce o caracteristică sumară - varianța eșantionului. Varianta eșantionului numită media aritmetică a abaterilor pătrate ale valorilor observate ale unei caracteristici de la valoarea lor medie, care se calculează folosind formulele: , sau .

Pe lângă dispersie, pentru a caracteriza dispersia valorilor unei caracteristici a populației generale (eșantionului) în jurul valorii sale medii, se utilizează o caracteristică rezumată - abaterea standard. Abaterea standard generală numit Rădăcină pătrată din varianţa generală: . Deviația standard a eșantionului se numește rădăcina pătrată a varianței eșantionului:

Să fie extras un eșantion de volum din populația generală ca rezultat al observațiilor independente asupra unei caracteristici cantitative. Este necesar să se estimeze variația generală necunoscută pe baza datelor din eșantion. Dacă luăm varianța eșantionului ca o estimare a varianței generale, atunci această estimare va duce la erori sistematice, dând o valoare subestimată a varianței generale. Acest lucru se explică prin faptul că varianța eșantionului este o estimare părtinitoare; cu alte cuvinte, așteptarea matematică a varianței eșantionului nu este egală cu varianța generală estimată, ci este egală cu .

Este ușor să corectați varianța eșantionului, astfel încât valoarea sa așteptată să fie egală cu varianța populației. Pentru a face acest lucru, este suficient să înmulțiți cu o fracție. Ca rezultat, obținem varianța corectată, care este de obicei notă cu . Varianta corectată va fi o estimare imparțială a varianței populației: .

2. Estimări de intervale.

Alături de estimarea punctuală, teoria statistică a estimării parametrilor tratează problemele estimării pe intervale. Problema estimării intervalului poate fi formulată astfel: folosind datele eșantionului, construiți un neutru numeric, raportat la care, cu o probabilitate preselectată, putem spune că parametrul estimat este situat în acest interval. Estimarea intervalului este necesară în special cu un număr mic de observații, atunci când estimarea punctuală este în mare măsură aleatorie și, prin urmare, nu foarte fiabilă.

Interval de încredere pentru un parametru se numeste un astfel de interval, raportat la care este posibil, cu o probabilitate preselectata apropiata de unitate, sa se afirme ca acesta contine o valoare necunoscuta a parametrului, i.e. . Cu cât numărul probabilității selectate este mai mic, cu atât estimarea parametrului necunoscut este mai precisă. Și invers, dacă acest număr este mare, atunci estimarea făcută folosind acest interval este de puțin folos pentru practică. Deoarece capetele intervalului de încredere depind de elementele eșantionului, valorile și pot varia de la un eșantion la altul. Probabilitatea se numește de obicei probabilitate de încredere (fiabilitate). De obicei, fiabilitatea estimării este specificată în prealabil, iar un număr apropiat de unu este luat ca valoare. Alegerea probabilității de încredere nu este o problemă matematică, ci este determinată de problema specifică care se rezolvă. Fiabilitatea cel mai des setată este egală cu ; ; .

Să prezentăm fără derivare un interval de încredere pentru media generală pentru o valoare cunoscută a abaterii standard, cu condiția ca variabila aleatoare (caracteristica cantitativă) să fie distribuită normal:

unde este un număr predeterminat apropiat de unu, iar valorile funcției sunt date în Anexa 2.

Sensul acestei relații este următorul: se poate afirma cu încredere că intervalul de încredere ( ) acoperă parametrul necunoscut, precizia estimării este egală cu . Numărul este determinat din egalitate sau . Folosind tabelul (Anexa 2), găsiți argumentul căruia îi corespunde valoarea funcției Laplace, egală cu .

Exemplul 1. Variabila aleatoare are o distribuție normală cu o abatere standard cunoscută. Găsiți intervale de încredere pentru estimarea mediei generale necunoscute pe baza mediilor eșantionului, dacă sunt date dimensiunea eșantionului și fiabilitatea estimării.

Soluţie. Să-l găsim. Din relație obținem că . Folosind tabelul (Anexa 2) găsim . Să aflăm exactitatea estimării . Intervalele de încredere vor fi: . De exemplu, dacă , atunci intervalul de încredere are următoarele limite de încredere: ; . Astfel, valorile parametrului necunoscut, în concordanță cu datele eșantionului, satisfac inegalitatea .

Intervalul de încredere pentru media generală a distribuției normale a unei caracteristici cu o valoare necunoscută a abaterii standard este dat de expresia .

Rezultă că se poate afirma cu încredere că intervalul de încredere acoperă parametrul necunoscut.

Există tabele gata făcute (Anexa 4), cu ajutorul cărora, având în vedere cele date, se poate găsi probabilitatea, iar invers, având în vedere cele date, se poate găsi.

Exemplul 2. Caracteristica cantitativă a populației este distribuită normal. Pe baza probei de volum, s-au găsit media eșantionului și abaterea standard corectată. Estimați o medie generală necunoscută folosind un interval de încredere cu fiabilitate.

Soluţie. Să-l găsim. Folosind tabelul (Anexa 4) aflăm: . Să găsim limitele de încredere:

Deci, cu fiabilitate, parametrul necunoscut este conținut în intervalul de încredere.

3. Conceptul de ipoteză statistică. Formularea generală a problemei de testare a ipotezelor.

Testarea ipotezelor statistice este strâns legată de teoria estimării parametrilor. În știința naturii, tehnologie și economie, pentru a clarifica unul sau altul fapt întâmplător, ei recurg adesea la exprimarea ipotezelor care pot fi testate statistic, adică pe baza rezultatelor observațiilor dintr-un eșantion aleatoriu. Sub ipotezele statistice se înțeleg ipoteze care se referă fie la tipul, fie la parametrii individuali ai distribuției unei variabile aleatoare. Deci, de exemplu, ipoteza statistică este că distribuția productivității muncii a lucrătorilor care prestează aceeași muncă în aceleași condiții are o lege normală de distribuție. Ipoteza că dimensiunile medii ale pieselor produse pe mașini similare cu funcționare paralelă nu diferă unele de altele va fi de asemenea statistică.

Ipoteza statistică se numește simplu, dacă determină în mod unic distribuția variabilei aleatoare, în caz contrar se numește ipoteza complex. De exemplu, o ipoteză simplă este ipoteza că o variabilă aleatoare este distribuită în mod normal cu o așteptare matematică egală cu zero și o varianță egală cu unu. Dacă se presupune că o variabilă aleatorie are o distribuție normală cu o varianță egală cu unu, iar așteptarea matematică este un număr din interval, atunci aceasta este o ipoteză complexă. Un alt exemplu de ipoteză complexă este ipoteza că o variabilă aleatoare continuă este probabil să ia o valoare din interval, caz în care distribuția variabilei aleatoare poate fi oricare din clasa distribuțiilor continue.

Adesea distribuția unei cantități este cunoscută și este necesar să se testeze ipotezele despre valoarea parametrilor acestei distribuții folosind un eșantion de observații. Astfel de ipoteze se numesc parametrice.

Ipoteza testată se numește ipoteza nulă si este desemnat . Alături de ipoteză, se ia în considerare una dintre ipotezele alternative (concurente). De exemplu, dacă se testează ipoteza că un parametru este egal cu o valoare dată, adică : , atunci una dintre următoarele ipoteze poate fi considerată ca o ipoteză alternativă: : ; : ; : ; : , unde este valoarea specificată, . Alegerea unei ipoteze alternative este determinată de formularea specifică a problemei.

Se numește regula prin care se ia decizia de a accepta sau respinge o ipoteză criteriu. Întrucât decizia este luată pe baza unui eșantion de observații ale unei variabile aleatorii, este necesar să se selecteze o statistică adecvată, în acest caz numită statistică criterială. La testarea unei ipoteze parametrice simple: sunt alese aceleași statistici ca statistici de criteriu ca și pentru estimarea parametrului.

Testarea ipotezelor statistice se bazează pe principiul că evenimentele cu probabilitate scăzută sunt considerate imposibile, iar evenimentele care au o probabilitate mare sunt considerate fiabile. Acest principiu poate fi implementat după cum urmează. Înainte de a analiza eșantionul, se fixează o anumită probabilitate mică, numită nivelul de semnificație. Fie un set de valori statistice și fie o submulțime astfel încât, cu condiția ca ipoteza să fie adevărată, probabilitatea ca statistica de criteriu să se încadreze este egală cu , i.e. .

Să notăm prin valoarea eșantionului de statistici calculate dintr-un eșantion de observații. Criteriul se formulează astfel: se respinge ipoteza dacă ; acceptă ipoteza dacă . Se numește un criteriu bazat pe utilizarea unui nivel de semnificație predeterminat criteriul de semnificație. Setul tuturor valorilor criteriilor statistice la care se ia decizia de respingere a ipotezei se numește zona critica; zona se numeste zona de adopție ipoteze.

Nivelul de semnificație determină dimensiunea regiunii critice. Poziția regiunii critice pe setul de valori statistice depinde de formularea ipotezei alternative. De exemplu, dacă ipoteza este testată: , iar ipoteza alternativă este formulată ca: (), atunci regiunea critică este situată în „coada” din dreapta (stânga) a distribuției statistice, adică are forma inegalității: (), unde și sunt acele valori statistice care sunt acceptate cu probabilități în mod corespunzător și cu condiția ca ipoteza să fie adevărată. În acest caz criteriul este numit unilateral, dreptaci și, respectiv, stângaci. Dacă ipoteza alternativă este formulată astfel: , atunci regiunea critică este situată pe ambele „cozi” ale distribuției, adică este determinată de un set de inegalități și ; in acest caz se numeste criteriul în două sensuri.

În fig. Figura 30 arată locația regiunii critice pentru diferite ipoteze alternative. Aici este densitatea de distribuție a criteriilor statistice, cu condiția ca ipoteza să fie adevărată, este zona de acceptare a ipotezei, .

Astfel, testarea unei ipoteze statistice parametrice folosind un test de semnificație poate fi împărțită în următoarele etape:

1) formulați ipoteze testabile () și alternative ();

2) atribuiți un nivel de semnificație; ca incompatibile cu rezultatele observațiilor; dacă , atunci acceptați ipoteza, adică presupuneți că ipoteza nu contrazice rezultatele observaționale.

De obicei, la efectuarea pașilor 4 - 7, se folosesc statistici ale căror cuantile sunt tabulate: statistici cu o distribuție normală, statistici Student, statistici Fisher.

Exemplul 3. Conform datelor pașaportului motorului mașinii, consumul de combustibil per 100 km kilometrajul este 10 l. Ca urmare a modificării designului motorului, consumul de combustibil este de așteptat să scadă. Se efectuează teste pentru verificare 25 mașini selectate aleatoriu cu un motor îmbunătățit, cu un eșantion mediu de consum de combustibil per 100 km kilometrajul conform rezultatelor testelor a fost 9,3 l. Să presupunem că eșantionul de consum de combustibil este extras dintr-o populație distribuită normal, cu medie și varianță. Cu condiția ca ipoteza regiunii critice pentru statisticile inițiale să fie adevărată, adică egală cu nivelul de semnificație. Găsiți probabilitățile de erori de primul și al doilea tip pentru un criteriu cu o astfel de regiune critică. are o distribuție normală cu o așteptare matematică egală cu și o varianță egală cu . Găsim probabilitatea unei erori de al doilea tip folosind formula (11.2):

Prin urmare, în conformitate cu criteriul acceptat, 13,6% dintre mașinile cu consum de combustibil 9 l pe 100 km kilometrajul sunt clasificate ca vehicule cu consum de combustibil 10 l.

4. Frecvențe teoretice și empirice. Criterii de consimțământ.

Frecvențele empirice- frecvenţele obţinute în urma experienţei (observării). Frecvențe teoretice sunt calculate folosind formule. Pentru legea distribuției normale pot fi găsite după cum urmează:

, (11.3)

Estimări statistice ale parametrilor populației. Ipoteze statistice

PRELEZA 16

Să fie necesar să se studieze o caracteristică cantitativă a unei populații generale. Să presupunem că, din considerente teoretice, am putut stabili exact ce distribuție are caracteristica. Aceasta ridică problema estimării parametrilor care determină această distribuție. De exemplu, dacă se știe că caracteristica studiată este distribuită în populația generală conform unei legi normale, atunci este necesar să se estimeze (aproximativ să se găsească) așteptarea matematică și abaterea standard, deoarece acești doi parametri determină complet distribuția normală. . Dacă există motive pentru a crede că caracteristica are o distribuție Poisson, atunci este necesar să se estimeze parametrul prin care se determină această distribuție.

De obicei, într-o distribuție, cercetătorul are doar date eșantion, de exemplu, valori ale unei caracteristici cantitative obținute ca urmare a observațiilor (în continuare, se presupune că observațiile sunt independente). Parametrul estimat este exprimat prin aceste date.

Considerând ca valori ale variabilelor aleatoare independente , putem spune că găsirea unei estimări statistice a unui parametru necunoscut al unei distribuții teoretice înseamnă găsirea unei funcții de variabile aleatoare observate, care dă o valoare aproximativă a parametrului estimat. De exemplu, așa cum se va arăta mai jos, pentru a estima așteptările matematice ale unei distribuții normale, utilizați funcția (media aritmetică a valorilor observate ale atributului):

.

Asa de, evaluare statistică Un parametru necunoscut al unei distribuții teoretice se numește o funcție a variabilelor aleatoare observate. Se numește o estimare statistică a unui parametru necunoscut al populației, scris ca un singur număr punct. Luați în considerare următoarele estimări punctuale: părtinitoare și nepărtinitoare, eficiente și consecvente.

Pentru ca estimările statistice să ofere aproximări „bune” ale parametrilor estimați, acestea trebuie să îndeplinească anumite cerințe. Să indicăm aceste cerințe.

Să existe o estimare statistică a unui parametru necunoscut al distribuției teoretice. Să presupunem că la eșantionarea volumului se găsește o estimare. Să repetăm ​​experimentul, adică vom extrage un alt eșantion de aceeași dimensiune din populația generală și vom folosi datele acesteia pentru a găsi o estimare etc. Repetând experimentul de multe ori, obținem numerele , care, în general, vor diferi unele de altele. Astfel, scorul poate fi considerat ca o variabilă aleatoare, iar numerele – ca posibilele sale semnificații.

Este clar că dacă estimarea oferă o valoare aproximativă cu un exces, atunci fiecare număr găsit din datele eșantionului va fi mai mare decât valoarea adevărată. În consecință, în acest caz, matematica (valoarea medie) a variabilei aleatoare va fi mai mare decât , adică . Evident, dacă dă o valoare aproximativă cu un dezavantaj, atunci .


Prin urmare, utilizarea unei estimări statistice, a cărei așteptare matematică nu este egală cu parametrul estimat, duce la erori sistematice (de același semn). Din acest motiv, este firesc să se ceară ca așteptarea matematică a estimării să fie egală cu parametrul estimat. Deși respectarea acestei cerințe nu va elimina în general erorile (unele valori sunt mai mari decât și altele mai mici decât), erorile de semne diferite vor apărea la fel de frecvent. Cu toate acestea, respectarea cerinței garantează imposibilitatea obținerii erorilor sistematice, adică elimină erorile sistematice.

imparțial se numește estimare statistică (eroare), a cărei așteptare matematică este egală cu parametrul estimat pentru orice dimensiune a eșantionului, adică.

Deplasat se numește estimare statistică, a cărei așteptare matematică nu este egală cu parametrul estimat pentru orice dimensiune a eșantionului, adică.

Cu toate acestea, ar fi o greșeală să presupunem că o estimare imparțială oferă întotdeauna o bună aproximare a parametrului estimat. Într-adevăr, valorile posibile pot fi împrăștiate pe scară largă în jurul valorii lor medii, adică dispersia poate fi semnificativă. În acest caz, estimarea găsită din datele unui eșantion, de exemplu, se poate dovedi a fi foarte departe de valoarea medie și, prin urmare, de parametrul estimat în sine. Astfel, luând ca valoare aproximativă, vom face o mare greșeală. Dacă doriți ca varianța să fie mică, atunci posibilitatea de a face o eroare mare va fi exclusă. Din acest motiv, evaluarea statistică este supusă cerinţei de eficienţă.

Efectiv este o estimare statistică care (pentru o anumită dimensiune a eșantionului) are cea mai mică varianță posibilă.

Bogat ei numesc o estimare statistică, care tinde probabil către parametrul estimat, adică egalitatea este adevărată:

.

De exemplu, dacă varianța unei estimări imparțiale la tinde spre zero, atunci o astfel de estimare se dovedește, de asemenea, a fi consecventă.

Să luăm în considerare întrebarea care sunt caracteristicile eșantionului care estimează cel mai bine media generală și varianța în termeni de imparțialitate, eficiență și consistență.

Să studiem o populație generală discretă cu privire la o caracteristică cantitativă.

Secundar general se numește media aritmetică a valorilor caracteristice populației generale. Se calculează prin formula:

§ – dacă toate valorile caracteristicii populației generale de volum sunt diferite;

§ – dacă valorile caracteristicii populației generale au frecvențe, respectiv. Adică, media generală este o medie ponderată a valorilor atributelor cu ponderi egale cu frecvențele corespunzătoare.

cometariu: lăsați populația generală a volumului să conțină obiecte cu valori diferite ale atributului. Să ne imaginăm că un obiect este selectat la întâmplare din acest set. Probabilitatea ca un obiect cu o valoare caracteristică, de exemplu, să fie preluat este în mod evident egală cu . Orice alt obiect poate fi recuperat cu aceeași probabilitate. Astfel, valoarea unei caracteristici poate fi considerată ca o variabilă aleatorie, ale cărei valori posibile au aceleași probabilități egale cu . În acest caz, nu este dificil să găsiți așteptările matematice:

Deci, dacă considerăm caracteristica chestionată a populației generale ca o variabilă aleatorie, atunci așteptarea matematică a caracteristicii este egală cu media generală a acestei caracteristici: . Am obținut această concluzie considerând că toate obiectele din populația generală au valori diferite ale atributelor. Același rezultat se va obține dacă presupunem că populația generală conține mai multe obiecte cu aceeași valoare de atribut.

Generalizând rezultatul obținut la populația generală cu o distribuție continuă a caracteristicii, definim media generală ca așteptarea matematică a caracteristicii: .

Să se extragă un eșantion de volum pentru a studia populația generală cu privire la o caracteristică cantitativă.

Media eșantionului se numește media aritmetică a valorilor caracteristice populației eșantionului. Se calculează prin formula:

§ – dacă toate valorile caracteristicii volumului probei sunt diferite;

§ – dacă valorile caracteristicii populației eșantionului au frecvențe, respectiv . Adică, media eșantionului este o medie ponderată a valorilor atributelor cu ponderi egale cu frecvențele corespunzătoare.

cometariu: Media eșantionului găsită din datele unui eșantion este evident un anumit număr. Dacă luați alte eșantioane de aceeași dimensiune din aceeași populație, atunci media eșantionului se va modifica de la eșantion la eșantion. Astfel, media eșantionului poate fi considerată ca o variabilă aleatoare și, prin urmare, se poate vorbi despre distribuțiile (teoretice și empirice) ale mediei eșantionului și despre caracteristicile numerice ale acestei distribuții, în special, așteptările matematice și varianța eșantionului. distributie.

În plus, dacă media generală este necunoscută și este necesar să o estimăm folosind datele eșantionului, atunci media eșantionului, care este o estimare imparțială și consecventă, este luată ca o estimare a mediei generale (sugerăm să demonstrați singuri această afirmație). Din cele de mai sus rezultă că, dacă mediile eșantionului sunt găsite pentru mai multe eșantioane cu un volum suficient de mare din aceeași populație generală, atunci acestea vor fi aproximativ egale între ele. Aceasta este proprietatea stabilitatea mijloacelor de probă.

Rețineți că, dacă variațiile a două populații sunt aceleași, atunci proximitatea mediilor eșantionului de mediile generale nu depinde de raportul dintre dimensiunea eșantionului și dimensiunea populației generale. Depinde de dimensiunea eșantionului: cu cât dimensiunea eșantionului este mai mare, cu atât media eșantionului diferă mai puțin de media generală. De exemplu, dacă 1% dintre obiecte sunt selectate dintr-o populație și 4% dintre obiecte sunt selectate dintr-o altă populație, iar volumul primului eșantion se dovedește a fi mai mare decât al doilea, atunci media primului eșantion va diferi mai puțin de media generală corespunzătoare decât a doua.

eşantion de distribuţie estimare statistică

O estimare este o aproximare a valorilor cantității dorite, obținute pe baza rezultatelor observării eșantionului. Estimările sunt variabile aleatorii. Ele oferă posibilitatea de a forma judecăți informate cu privire la parametrii necunoscuți ai populației. Un exemplu de estimare a mediei generale este media eșantionului a varianței generale - varianța eșantionului etc.

Pentru a evalua cât de „bine” îndeplinește evaluarea caracteristicilor generale corespunzătoare, au fost elaborate 4 criterii: consistență, imparțialitate, eficiență și suficiență. Această abordare se bazează pe faptul că calitatea unei evaluări nu este determinată de ea valori individuale, dar în funcție de caracteristicile distribuției sale ca variabilă aleatoare.

Pe baza principiilor teoriei probabilităților, se poate dovedi că dintre caracteristicile eșantionului precum media aritmetică, modul și mediana, numai media aritmetică reprezintă o estimare consistentă, imparțială, eficientă și suficientă a mediei generale. Aceasta determină preferința acordată mediei aritmetice printre alte caracteristici ale eșantionului.

imparțial evaluarea se manifestă prin faptul că așteptarea sa matematică pentru orice dimensiune a eșantionului este egală cu valoarea parametrului estimat în populația generală. Dacă această cerință nu este îndeplinită, atunci evaluarea este deplasat.

Condiția estimării nepărtinitoare are ca scop eliminarea erorilor sistematice de estimare.

Atunci când rezolvă probleme de estimare, se folosesc și estimări asimptotic imparțial, pentru care, pe măsură ce dimensiunea eșantionului crește, așteptarea matematică tinde spre parametrul estimat al populației generale.

Bogatie estimările statistice se manifestă prin faptul că, odată cu creșterea mărimii eșantionului, estimarea se apropie din ce în ce mai mult de valoarea reală a parametrului estimat sau, după cum se spune, estimarea converge în probabilitate către parametrul dorit, sau tinde spre așteptarea sa matematică. . Numai evaluările consistente au semnificație practică.

Aceasta este estimarea parametrului imparțial care are cea mai mică varianță pentru o anumită dimensiune a eșantionului. În practică, varianța de estimare este de obicei identificată cu eroarea de estimare.

La fel de măsuri de evaluare a eficacității luați raportul dintre variația minimă posibilă și varianța unei alte estimări.

O estimare care asigură utilizarea completă a tuturor informațiilor conținute în eșantion despre o caracteristică necunoscută a populației se numește suficient(exhaustiv).

Respectarea proprietăților estimărilor statistice discutate mai sus face posibilă considerarea caracteristicilor eșantionului pentru estimarea parametrilor populației generale ca fiind cele mai bune posibile.

Cea mai importantă sarcină a statisticii matematice este de a obține cele mai raționale, „adevărate” estimări statistice ale parametrilor doriti ai populației generale folosind date eșantionului. Există două tipuri de inferență statistică: estimarea statistică; testarea ipotezelor statistice.

Sarcina principală a obținerii estimărilor statistice este de a selecta și justifica cele mai bune estimări care oferă posibilitatea evaluării semnificative a parametrilor necunoscuți ai populației.

Problema estimării parametrilor necunoscuți poate fi rezolvată în două moduri:

  • 1. parametrul necunoscut se caracterizează printr-un număr (punct) - se utilizează metoda de estimare punctuală;
  • 2. estimarea intervalului, adică se determină un interval în care, cu o oarecare probabilitate, poate fi localizat parametrul dorit.

Estimarea punctuala parametrul necunoscut este că un specific valoare numerica evaluarea eșantionului este luată ca cea mai bună aproximare a parametrului populației adevărate, adică parametrul populației necunoscut este estimat printr-un singur număr (punct) determinat din eșantion. Cu această abordare există întotdeauna riscul de a face o eroare, astfel încât estimarea punctuală trebuie completată cu un indicator posibilă eroare la un anumit nivel de probabilitate.

Abaterea sa standard este considerată eroare medie de estimare.

Apoi, estimarea punctuală a mediei generale poate fi reprezentată ca un interval

unde este media aritmetică eșantionului.

Când se face o estimare punctuală, se folosesc mai multe metode pentru a obține estimări din datele eșantionului:

  • 1. metoda momentelor, în care momente ale populației generale sunt înlocuite cu momente ale populației eșantionului;
  • 2. metoda celor mai mici pătrate;
  • 3. metoda maximului de probabilitate.

În multe probleme, este necesar să se găsească nu numai o estimare numerică a unui parametru de populație, ci și să se evalueze acuratețea și fiabilitatea acestuia. Acest lucru este deosebit de important pentru mostrele relativ mici. O generalizare a estimării punctuale a unui parametru statistic este aceasta estimarea intervalului- găsirea unui interval numeric care să conţină parametrul estimat cu o anumită probabilitate.

Datorită faptului că la determinarea caracteristicilor generale din datele eșantionului există întotdeauna o anumită eroare, este mai practic să se determine intervalul centrat pe estimarea punctuală găsită, în cadrul căruia se află adevărata valoare dorită a parametrului estimat al caracteristicii generale cu o anumită probabilitate specificată. Acest interval se numește interval de încredere.

Interval de încredere este un interval numeric care, cu o probabilitate dată r, acoperă parametrul estimat al populației. Această probabilitate se numește încredere. Probabilitatea de încredere r este probabilitatea care poate fi considerată suficientă în cadrul problemei care se rezolvă pentru a aprecia fiabilitatea caracteristicilor obţinute pe baza observaţiilor eşantionului. mărimea

se numește probabilitatea de a greși nivelul de semnificație.

Pentru un eșantion (punctual) estimare ȘI * (theta) parametru ȘI al populației generale cu acuratețe ( eroare extremă) D și probabilitatea de încredere r, intervalul de încredere este determinat de egalitatea:

Probabilitatea de încredere r face posibilă stabilirea limitele de încredere fluctuația aleatorie a parametrului studiat ȘI pentru un eșantion dat.

Următoarele valori și valorile lor corespunzătoare sunt adesea luate ca probabilitate de încredere: niveluri de semnificație

Tabelul 1. - Probabilitățile de încredere și nivelurile de semnificație cel mai frecvent utilizate

De exemplu, un nivel de semnificație de 5 procente înseamnă următoarele: în 5 cazuri din 100, există riscul de a face o eroare la identificarea caracteristicilor populației din datele eșantionului. Sau, cu alte cuvinte, în 95 de cazuri din 100, caracteristica generală identificată pe baza eșantionului se va situa în intervalul de încredere.