Estimări statistice punctuale. Evaluare statistică

Să fie necesar să se studieze o caracteristică cantitativă a unei populații generale. Să presupunem că, din considerente teoretice, am putut stabili exact ce distribuție are caracteristica. Se pune problema estimării parametrilor care determină această distribuţie. De exemplu, dacă se știe dinainte că caracteristica studiată este distribuită în populația generală conform unei legi normale, atunci este necesar să se estimeze așteptarea matematică și abaterea standard, deoarece acești doi parametri determină complet distribuția normală. Dacă există motive să credem că o caracteristică are o distribuție Poisson, atunci este necesar să se estimeze parametrul prin care se determină această distribuție. De obicei, sunt disponibile numai date eșantion obținute din observații: , , ... , . Parametrul estimat este exprimat prin aceste date. Considerând , , ... ca valori ale variabilelor aleatoare independente , , ... , , putem spune că găsirea unei estimări statistice a unui parametru necunoscut al unei distribuții teoretice înseamnă găsirea unei funcții de variabile aleatoare observate, ceea ce oferă o estimare aproximativă. valoarea parametrului estimat.

Asa de, evaluare statistică Un parametru necunoscut al unei distribuții teoretice se numește o funcție a variabilelor aleatoare observate. Se numește o estimare statistică a unui parametru necunoscut al populației folosind un număr punct. Sunt luate în considerare următoarele estimări punctuale: părtinitoare și nepărtinitoare, eficiente și consecvente.

Pentru ca estimările statistice să ofere aproximări bune ale parametrilor estimați, acestea trebuie să îndeplinească anumite cerințe. Să indicăm aceste cerințe. Să existe o estimare statistică a unui parametru necunoscut al distribuției teoretice. Să presupunem că s-a găsit o estimare dintr-un eșantion de volum. Să repetăm experimentul, adică vom extrage un alt eșantion de aceeași mărime din populația lor generală și, folosind datele acestuia, vom găsi o estimare etc. Vom obține numere , , ... , care vor fi diferite de la fiecare alte. Astfel, estimarea poate fi considerată ca o variabilă aleatoare, iar numerele , , ... , ca valori posibile ale acesteia.

Dacă estimarea oferă o valoare aproximativă cu un exces, atunci numărul găsit din datele eșantionului ( ) va fi mai mare decât valoarea adevărată. În consecință, așteptarea matematică (valoarea medie) a variabilei aleatoare va fi mai mare decât , adică . Dacă oferă o valoare aproximativă cu un dezavantaj, atunci .

Astfel, utilizarea unei estimări statistice a cărei așteptare matematică nu este egală cu parametrul estimat ar duce la erori sistematice. Prin urmare, este necesar să se ceară ca așteptarea matematică a estimării să fie egală cu parametrul estimat. Respectarea cerinței elimină erorile sistematice.

imparțial se numește estimare statistică, a cărei așteptare matematică este egală cu parametrul estimat, i.e.

Deplasat numită estimare statistică, a cărei așteptare matematică nu este egală cu parametrul estimat.

Cu toate acestea, este o greșeală să presupunem că o estimare imparțială oferă întotdeauna o bună aproximare a parametrului estimat. Într-adevăr, valorile posibile pot fi împrăștiate pe scară largă în jurul valorii lor medii, adică dispersia valorii poate fi semnificativă. În acest caz, estimarea găsită din datele unui eșantion, de exemplu, se poate dovedi a fi foarte îndepărtată de valoarea sa medie și, prin urmare, de parametrul estimat în sine. Dacă am lua ca valoare aproximativă, am face o mare greșeală. Dacă doriți ca varianța unei cantități să fie mică, atunci posibilitatea de a face o eroare mare va fi eliminată. Prin urmare, evaluarea statistică este supusă cerințelor de eficiență.

Efectiv este o estimare statistică care (pentru o anumită dimensiune a eșantionului) are cea mai mică varianță posibilă. Atunci când se iau în considerare eșantioane mari, estimările statistice trebuie să fie consecvente.

Bogat numită estimare statistică, care tinde probabil către parametrul estimat. De exemplu, dacă varianța unei estimări nepărtinitoare la tinde spre zero, atunci o astfel de estimare se dovedește a fi consecventă.

Să luăm în considerare întrebarea care sunt caracteristicile eșantionului care estimează cel mai bine media generală și varianța în termeni de imparțialitate, eficiență și consistență.

Să studiem o populație generală discretă în raport cu o caracteristică cantitativă. Secundar general se numește media aritmetică a valorilor caracteristice populației generale. Poate fi calculat folosind formule sau , unde sunt valorile caracteristicii populației generale de volum , sunt frecvențele corespunzătoare și .

Să fie extras un eșantion de volum cu valori caracteristice din populația generală ca urmare a observațiilor independente ale unei caracteristici cantitative . Media eșantionului se numește media aritmetică a populației eșantionului. Poate fi calculat folosind formule sau , unde sunt valorile caracteristicii din populația eșantionului de volum , sunt frecvențele corespunzătoare și .

Dacă media generală este necunoscută și este necesară estimarea ei folosind datele eșantionului, atunci media eșantionului, care este o estimare imparțială și consecventă, este considerată o estimare a mediei generale. Rezultă că, dacă mediile eșantionului sunt găsite din mai multe eșantioane de o dimensiune suficient de mare din aceeași populație generală, atunci acestea vor fi aproximativ egale între ele. Aceasta este proprietatea stabilitatea mijloacelor de probă.

Rețineți că, dacă variațiile a două populații sunt aceleași, atunci proximitatea mediilor eșantionului de mediile generale nu depinde de raportul dintre dimensiunea eșantionului și dimensiunea populației generale. Depinde de dimensiunea eșantionului: cu cât dimensiunea eșantionului este mai mare, cu atât media eșantionului diferă mai puțin de media generală.

Pentru a caracteriza dispersia valorilor unei caracteristici cantitative a unei populații în jurul valorii sale medii, se introduce o caracteristică sumară - dispersia generală. Varianta generala numită media aritmetică a abaterilor pătrate ale valorilor caracteristicii populației de la valoarea medie a acestora, care se calculează folosind formulele: , sau .

Pentru a caracteriza dispersia valorilor observate ale unei caracteristici cantitative a unui eșantion în jurul valorii sale medii, se introduce o caracteristică sumară - varianța eșantionului. Varianta eșantionului numită media aritmetică a abaterilor pătrate ale valorilor observate ale unei caracteristici de la valoarea lor medie, care se calculează folosind formulele: , sau .

Pe lângă dispersie, pentru a caracteriza dispersia valorilor unei caracteristici a populației generale (eșantionului) în jurul valorii sale medii, se utilizează o caracteristică rezumată - abaterea standard. Abaterea standard generală numit Rădăcină pătrată din varianţa generală: . Deviația standard a eșantionului se numește rădăcina pătrată a varianței eșantionului:

Să fie extras un eșantion de volum din populația generală ca rezultat al observațiilor independente asupra unei caracteristici cantitative. Este necesar să se estimeze variația generală necunoscută pe baza datelor din eșantion. Dacă luăm varianța eșantionului ca o estimare a varianței generale, atunci această estimare va duce la erori sistematice, dând o valoare subestimată a varianței generale. Acest lucru se explică prin faptul că varianța eșantionului este o estimare părtinitoare; cu alte cuvinte, așteptarea matematică a varianței eșantionului nu este egală cu varianța generală estimată, ci este egală cu .

Este ușor să corectați varianța eșantionului, astfel încât valoarea sa așteptată să fie egală cu varianța populației. Pentru a face acest lucru, este suficient să înmulțiți cu o fracție. Ca rezultat, obținem varianța corectată, care este de obicei notă cu . Varianta corectată va fi o estimare imparțială a varianței populației: .

2. Estimări de intervale.

Împreună cu estimarea punctuala Teoria statistică a estimării parametrilor se ocupă de problemele estimării pe intervale. Problema estimării intervalului poate fi formulată astfel: folosind datele eșantionului, construiți un neutru numeric, raportat la care, cu o probabilitate preselectată, putem spune că parametrul estimat este situat în acest interval. Estimarea intervalului este necesară în special cu un număr mic de observații, atunci când estimarea punctuală este în mare măsură aleatorie și, prin urmare, nu foarte fiabilă.

Interval de încredere pentru un parametru se numeste un astfel de interval, raportat la care este posibil, cu o probabilitate preselectata apropiata de unitate, sa se afirme ca acesta contine o valoare necunoscuta a parametrului, i.e. . Cu cât numărul probabilității selectate este mai mic, cu atât estimarea parametrului necunoscut este mai precisă. Și invers, dacă acest număr este mare, atunci estimarea făcută folosind acest interval este de puțin folos pentru practică. Deoarece capetele intervalului de încredere depind de elementele eșantionului, valorile și pot varia de la un eșantion la altul. Probabilitatea se numește de obicei probabilitate de încredere (fiabilitate). De obicei, fiabilitatea estimării este specificată în prealabil, iar un număr apropiat de unu este luat ca valoare. Alegerea probabilității de încredere nu este o problemă matematică, ci este determinată de problema specifică care se rezolvă. Fiabilitatea cel mai des setată este egală cu ; ; .

Să prezentăm fără derivare un interval de încredere pentru media generală pentru o valoare cunoscută a abaterii standard, cu condiția ca variabila aleatoare (caracteristica cantitativă) să fie distribuită normal:

unde este un număr predeterminat apropiat de unu, iar valorile funcției sunt date în Anexa 2.

Sensul acestei relații este următorul: se poate afirma cu încredere că intervalul de încredere ( ) acoperă parametrul necunoscut, precizia estimării este egală cu . Numărul este determinat din egalitate sau . Folosind tabelul (Anexa 2), găsiți argumentul căruia îi corespunde valoarea funcției Laplace, egală cu .

Exemplul 1. Variabila aleatoare are o distribuție normală cu o abatere standard cunoscută. Găsiți intervale de încredere pentru estimarea mediei generale necunoscute pe baza mediilor eșantionului, dacă sunt date dimensiunea eșantionului și fiabilitatea estimării.

Soluţie. Să-l găsim. Din relație obținem că . Folosind tabelul (Anexa 2) găsim . Să aflăm exactitatea estimării . Intervalele de încredere vor fi: . De exemplu, dacă , atunci intervalul de încredere are următoarele limite de încredere: ; . Astfel, valorile parametrului necunoscut, în concordanță cu datele eșantionului, satisfac inegalitatea .

Intervalul de încredere pentru media generală a distribuției normale a unei caracteristici cu o valoare necunoscută a abaterii standard este dat de expresia .

Rezultă că se poate afirma cu încredere că intervalul de încredere acoperă parametrul necunoscut.

Există tabele gata făcute (Anexa 4), cu ajutorul cărora, având în vedere cele date, se poate găsi probabilitatea, iar invers, având în vedere cele date, se poate găsi.

Exemplul 2. Caracteristica cantitativă a populației este distribuită normal. Pe baza probei de volum, s-au găsit media eșantionului și abaterea standard corectată. Estimați o medie generală necunoscută folosind un interval de încredere cu fiabilitate.

Soluţie. Să-l găsim. Folosind tabelul (Anexa 4) aflăm: . Să găsim limitele de încredere:

Deci, cu fiabilitate, parametrul necunoscut este conținut în intervalul de încredere.

3. Conceptul de ipoteză statistică. Formularea generală a problemei de testare a ipotezelor.

Testarea ipotezelor statistice este strâns legată de teoria estimării parametrilor. În știința naturii, tehnologie și economie, pentru a clarifica unul sau altul fapt întâmplător, ei recurg adesea la exprimarea ipotezelor care pot fi testate statistic, adică pe baza rezultatelor observațiilor dintr-un eșantion aleatoriu. Sub ipotezele statistice se înțeleg ipoteze care se referă fie la tipul, fie la parametrii individuali ai distribuției unei variabile aleatoare. Deci, de exemplu, ipoteza statistică este că distribuția productivității muncii a lucrătorilor care prestează aceeași muncă în aceleași condiții are o lege normală de distribuție. Ipoteza că dimensiunile medii ale pieselor produse pe mașini similare cu funcționare paralelă nu diferă unele de altele va fi de asemenea statistică.

Ipoteza statistică se numește simplu, dacă determină în mod unic distribuția variabilei aleatoare, în caz contrar se numește ipoteza complex. De exemplu, o ipoteză simplă este ipoteza că o variabilă aleatoare este distribuită în mod normal cu o așteptare matematică egală cu zero și o varianță egală cu unu. Dacă se presupune că o variabilă aleatorie are o distribuție normală cu o varianță egală cu unu, iar așteptarea matematică este un număr din interval, atunci aceasta este o ipoteză complexă. Un alt exemplu de ipoteză complexă este ipoteza că o variabilă aleatoare continuă este probabil să ia o valoare din interval, caz în care distribuția variabilei aleatoare poate fi oricare din clasa distribuțiilor continue.

Adesea distribuția unei cantități este cunoscută și este necesar să se testeze ipotezele despre valoarea parametrilor acestei distribuții folosind un eșantion de observații. Astfel de ipoteze se numesc parametrice.

Ipoteza testată se numește ipoteza nulă si este desemnat . Alături de ipoteză, se ia în considerare una dintre ipotezele alternative (concurente). De exemplu, dacă se testează ipoteza că un parametru este egal cu o valoare dată, adică : , atunci una dintre următoarele ipoteze poate fi considerată ca o ipoteză alternativă: : ; : ; : ; : , unde este valoarea specificată, . Alegerea unei ipoteze alternative este determinată de formularea specifică a problemei.

Se numește regula prin care se ia decizia de a accepta sau respinge o ipoteză criteriu. Deoarece decizia este luată pe baza unui eșantion de observații ale unei variabile aleatoare, este necesar să se selecteze o statistică adecvată, în acest caz numită statistică de test. La testarea unei ipoteze parametrice simple: sunt alese aceleași statistici ca statistici de criteriu ca și pentru estimarea parametrului.

Testarea ipotezelor statistice se bazează pe principiul că evenimentele cu probabilitate scăzută sunt considerate imposibile, iar evenimentele care au o probabilitate mare sunt considerate fiabile. Acest principiu poate fi implementat după cum urmează. Înainte de a analiza eșantionul, se fixează o anumită probabilitate mică, numită nivelul de semnificație. Fie un set de valori statistice și fie o submulțime astfel încât, cu condiția ca ipoteza să fie adevărată, probabilitatea ca statistica de criteriu să se încadreze este egală cu , i.e. .

Să notăm prin valoarea eșantionului de statistici calculate dintr-un eșantion de observații. Criteriul se formulează astfel: se respinge ipoteza dacă ; acceptă ipoteza dacă . Se numește un criteriu bazat pe utilizarea unui nivel de semnificație predeterminat criteriul de semnificație. Setul tuturor valorilor criteriilor statistice la care se ia decizia de respingere a ipotezei se numește zona critica; zona se numeste zona de adopție ipoteze.

Nivelul de semnificație determină dimensiunea regiunii critice. Poziția regiunii critice pe setul de valori statistice depinde de formularea ipotezei alternative. De exemplu, dacă ipoteza este testată: , iar ipoteza alternativă este formulată ca: (), atunci regiunea critică este situată în „coada” din dreapta (stânga) a distribuției statistice, adică are forma inegalității: (), unde și sunt acele valori statistice care sunt acceptate cu probabilități în mod corespunzător și cu condiția ca ipoteza să fie adevărată. În acest caz criteriul este numit unilateral, dreptaci și, respectiv, stângaci. Dacă ipoteza alternativă este formulată astfel: , atunci regiunea critică este situată pe ambele „cozi” ale distribuției, adică este determinată de un set de inegalități și ; in acest caz se numeste criteriul în două sensuri.

În fig. Figura 30 arată locația regiunii critice pentru diferite ipoteze alternative. Aici este densitatea de distribuție a criteriilor statistice, cu condiția ca ipoteza să fie adevărată, este zona de acceptare a ipotezei, .

Astfel, testarea unei ipoteze statistice parametrice folosind un test de semnificație poate fi împărțită în următoarele etape:

1) formulați ipoteze testabile () și alternative ();

2) atribuiți un nivel de semnificație; ca incompatibile cu rezultatele observațiilor; dacă , atunci acceptați ipoteza, adică presupuneți că ipoteza nu contrazice rezultatele observaționale.

De obicei, la efectuarea pașilor 4 - 7, se folosesc statistici ale căror cuantile sunt tabulate: statistici cu o distribuție normală, statistici Student, statistici Fisher.

Exemplul 3. Conform datelor pașaportului motorului mașinii, consumul de combustibil per 100 km kilometrajul este 10 l. Ca urmare a modificării designului motorului, consumul de combustibil este de așteptat să scadă. Se efectuează teste pentru verificare 25 mașini selectate aleatoriu cu un motor îmbunătățit, cu un eșantion mediu de consum de combustibil per 100 km kilometrajul conform rezultatelor testelor a fost 9,3 l. Să presupunem că eșantionul de consum de combustibil este extras dintr-o populație distribuită normal, cu medie și varianță. Cu condiția ca ipoteza regiunii critice pentru statisticile inițiale să fie adevărată, adică egală cu nivelul de semnificație. Găsiți probabilitățile de erori de primul și al doilea tip pentru un criteriu cu o astfel de regiune critică. are o distribuție normală cu o așteptare matematică egală cu și o varianță egală cu . Găsim probabilitatea unei erori de al doilea tip folosind formula (11.2):

Prin urmare, în conformitate cu criteriul acceptat, 13,6% dintre mașinile cu consum de combustibil 9 l pe 100 km kilometrajul sunt clasificate ca vehicule cu consum de combustibil 10 l.

4. Frecvențe teoretice și empirice. Criterii de consimțământ.

Frecvențele empirice- frecvenţele obţinute în urma experienţei (observării). Frecvențe teoretice sunt calculate folosind formule. Pentru legea distribuției normale pot fi găsite după cum urmează:

, (11.3)

Să presupunem că doriți să studiați, de exemplu, o caracteristică cantitativă a unei populații generale. Să presupunem că, din considerente teoretice, am putut stabili exact ce distribuție are caracteristica. Desigur, se pune problema estimării parametrilor care determină această distribuție. De exemplu, dacă se știe dinainte că caracteristica studiată este distribuită normal în populație, atunci este necesar să se estimeze (aflați aproximativ) așteptarea matematică a și abaterea standard s, deoarece acești doi parametri determină complet distribuția normală. .

De obicei, cercetătorul are la dispoziție doar date eșantion, de exemplu, valorile caracteristicii cantitative x 1, x 2, ..., x n, obținute ca urmare a n observații. Parametrul estimat este exprimat prin aceste date.

Fie q * o estimare statistică a parametrului necunoscut q al distribuției teoretice. Distinge imparțialȘi deplasat evaluări.

imparțial numită estimare statistică q *, a cărei așteptare matematică este egală cu parametrul estimat q pentru orice dimensiune a eșantionului, adică

Altfel, adică dacă M(q *) ¹ q, estimarea este numită deplasat.

Cerința imparțială înseamnă că nu ar trebui să existe o abatere sistematică în aceeași direcție a valorilor observate de la q.

Există, de asemenea, o cerință pentru evaluarea statistică eficienţă, ceea ce implică (pentru o anumită dimensiune a eșantionului) cea mai mică variație posibilă, iar în cazul unei dimensiuni mari a eșantionului, cerința solvabilitate, adică coincidența practică a valorilor observate ale variabilei aleatoare cu parametrul estimat.

Dacă materialul statistic este prezentat sub forma unei serii de variații, atunci analiza sa ulterioară se efectuează, de regulă, cu ajutorul unor valori constante care reflectă destul de pe deplin modelele inerente ale populației studiate.

Aceste constante includ valori medii, printre care cea mai semnificativă este medie aritmetică- este mai simplu decât alții ca semnificație, proprietăți și metodă de producție.

Întrucât în studiul populației generale se prelevează un eșantion, se numește valoarea constantă care caracterizează eșantionul eșantion mediu si este desemnat .

Se poate demonstra că există estimare imparțială valoarea medie aritmetică a caracteristicii populaţiei generale, adică

Lasă un set să fie împărțit în părți - grupuri, nu neapărat la fel ca volum. Apoi se numesc distribuțiile medii aritmetice ale membrilor grupului medii de grup, și media aritmetică a distribuției pentru aceeași caracteristică a întregii populații - media generală. Grupurile sunt chemate disjuns, dacă fiecare membru al populației aparține unui singur grup.

Media generală este egală cu media aritmetică a mediilor de grup a tuturor grupurilor disjunctive.

Exemplu. Calculați salariul mediu al lucrătorilor întreprinderii conform datelor din tabel

Soluţie. Prin definiție, media generală este

. (*)

n 1 = 40, n 2 = 50, n 3 = 60

Salariul mediu al lucrătorilor din atelierul nr. 1. Pentru a-l găsi, am compilat salariul mediu aritmetic pentru întregul atelier: 75, 85, 95 și 105 (cu). Pentru comoditate, aceste valori pot fi reduse de cinci ori (acesta este cel mai mare divizor comun al lor): 15, 17, 19, 21. Restul este clar din formulă.

După ce am efectuat operații similare, găsim , .

Înlocuind valorile obținute în (*), obținem

Mediile sunt valori constante care caracterizează distribuțiile într-un anumit fel. Unele distribuții sunt judecate numai prin mijloace. De exemplu, pentru a compara nivelurile salariile V diverse industrii industrie, este suficient să comparăm salariile medii în ele. Cu toate acestea, mediile nu pot fi folosite pentru a judeca nici diferențele dintre nivelurile salariale ale lucrătorilor cel mai înalt și cel mai prost plătiți, nici ce abateri de la salariile medii apar.

În statistică, cel mai mare interes este răspândirea valorilor atributelor în jurul mediei lor aritmetice.În practică și în studiile teoretice, dispersia unei caracteristici este caracterizată mai des prin dispersie și abatere standard.

Varianta eșantionului D B este media aritmetică a pătratelor abaterii valorilor observate ale unei caracteristici de la valoarea lor medie.

Dacă toate valorile x 1, x 2, ... x n ale caracteristicii unui eșantion de volum n sunt diferite, atunci

. (3)

Dacă valorile atributului x 1, x 2, ... x k au frecvențe n 1, n 2, ... n k, respectiv, și n 1 + n 2 + ... + n k = n, atunci

. (4)

Dacă este nevoie ca indicatorul de dispersie să fie exprimat în aceleași unități ca și valorile atributelor, atunci puteți utiliza caracteristica rezumată - deviație standard

Pentru a calcula varianța, se utilizează de obicei formula

Dacă populația este împărțită în grupuri care nu se suprapun, atunci pot fi introduse conceptele de grup, intragrup, intergrup și dispersie totală pentru a le caracteriza.

grup dispersia este dispersia distribuției membrilor grupului j-a în raport cu media lor - media grupului, adică

unde n i este frecvența valorii x i, este volumul grupului j.

Intragrup dispersia este media aritmetică a dispersiilor de grup

unde N j (j = 1, 2, …, m) sunt volumele grupurilor disjunse.

Intergrup dispersia este media aritmetică a abaterilor pătrate ale mediilor de grup ale tuturor grupurilor disjunse de la media generală, adică

General dispersia este dispersia valorilor unei caracteristici a întregii populații în raport cu media generală

unde n i este frecvența valorii x i; - media generală; n este volumul întregii populații.

Se poate demonstra că varianța totală a lui D este egală cu suma, adică

Exemplu. Aflați varianța totală a unei populații formată din următoarele două grupuri

Primul grup		A doua grupă
x i	n i		x i	n i

Soluţie. Să găsim mediile de grup

Să găsim variațiile de grup

Să găsim media generală

Varianta totală necesară

Estimările considerate mai sus sunt de obicei numite punct, deoarece aceste estimări sunt determinate un numar. Când volum mic eșantioane, se utilizează o estimare de interval, determinată doua numere, numite capetele intervalului.

Estimările de intervale ne permit să stabilim acuratețe și fiabilitate evaluări. Să explicăm sensul acestor concepte. Fie caracteristica statistică q * găsită din datele eșantionului să servească drept estimare a parametrului necunoscut q. Este clar că q * cu cât parametrul q va fi determinat mai precis, cu atât valoarea absolută este mai mică. Cu alte cuvinte, dacă d > 0 și , atunci cu cât d este mai mic, cu atât estimarea este mai precisă.

Astfel, numărul d > 0 caracterizează precizie evaluări. Dar, pe de altă parte, metodele statistice nu ne permit să afirmăm categoric că estimarea q * satisface inegalitatea. Aici putem vorbi doar despre probabilitate g, cu care se realizează această inegalitate. Această probabilitate g se numește fiabilitate (probabilitate de încredere) estimează q cu q * .

Astfel, din cele spuse rezultă că

Relația (*) trebuie înțeleasă astfel: probabilitatea ca intervalul (q * - d, q * + d) să conțină (acoperă) parametrul necunoscut q este egală cu g. Intervalul (q * - d, q * + d) care acoperă parametrul necunoscut cu o fiabilitate dată g se numește încredere.

Exemplu. Variabila aleatoare X are o distribuție normală cu o abatere standard cunoscută s = 3. Găsiți intervale de încredere pentru estimarea așteptării matematice necunoscute a folosind mediile eșantionului, dacă dimensiunea eșantionului este n = 36 și fiabilitatea estimării este dată de g = 0,95 .

Soluţie. Rețineți că dacă variabila aleatoare X este distribuită normal, atunci media eșantionului , găsită din observații independente, este de asemenea distribuită normal, iar parametrii de distribuție sunt după cum urmează: , (vezi pagina 54).

Solicităm ca relația să fie îndeplinită

Folosind formula (**) (vezi pagina 43), înlocuind X cu și s cu , obținem

eşantion de distribuţie estimare statistică

O estimare este o aproximare a valorilor cantității dorite, obținute pe baza rezultatelor observării eșantionului. Estimările sunt variabile aleatorii. Ele oferă posibilitatea de a forma judecăți informate cu privire la parametrii necunoscuți ai populației. Un exemplu de estimare a mediei generale este media eșantionului a varianței generale - varianța eșantionului etc.

Pentru a evalua cât de „bine” îndeplinește evaluarea caracteristicilor generale corespunzătoare, au fost elaborate 4 criterii: consistență, imparțialitate, eficiență și suficiență. Această abordare se bazează pe faptul că calitatea unei evaluări nu este determinată de ea valori individuale, dar în funcție de caracteristicile distribuției sale ca variabilă aleatoare.

Pe baza principiilor teoriei probabilităților, se poate dovedi că dintre caracteristicile eșantionului precum media aritmetică, modul și mediana, numai media aritmetică reprezintă o estimare consistentă, imparțială, eficientă și suficientă a mediei generale. Aceasta determină preferința acordată mediei aritmetice printre alte caracteristici ale eșantionului.

imparțial evaluarea se manifestă prin faptul că așteptarea sa matematică pentru orice dimensiune a eșantionului este egală cu valoarea parametrului estimat în populația generală. Dacă această cerință nu este îndeplinită, atunci evaluarea este deplasat.

Condiția estimării nepărtinitoare are ca scop eliminarea erorilor sistematice de estimare.

Atunci când rezolvă probleme de estimare, se folosesc și estimări asimptotic imparțial, pentru care, pe măsură ce dimensiunea eșantionului crește, așteptarea matematică tinde spre parametrul estimat al populației generale.

Bogatie estimările statistice se manifestă prin faptul că, odată cu creșterea mărimii eșantionului, estimarea se apropie din ce în ce mai mult de valoarea reală a parametrului estimat sau, după cum se spune, estimarea converge în probabilitate către parametrul dorit, sau tinde spre așteptarea sa matematică. . Numai evaluările consistente au semnificație practică.

Aceasta este estimarea parametrului imparțial care are cea mai mică varianță pentru o anumită dimensiune a eșantionului. În practică, varianța de estimare este de obicei identificată cu eroarea de estimare.

La fel de măsuri de evaluare a eficacității luați raportul dintre variația minimă posibilă și varianța unei alte estimări.

O estimare care asigură utilizarea completă a tuturor informațiilor conținute în eșantion despre o caracteristică necunoscută a populației se numește suficient(exhaustiv).

Respectarea proprietăților estimărilor statistice discutate mai sus face posibilă considerarea caracteristicilor eșantionului pentru estimarea parametrilor populației generale ca fiind cele mai bune posibile.

Cea mai importantă sarcină a statisticii matematice este de a obține cele mai raționale, „adevărate” estimări statistice ale parametrilor doriti ai populației generale folosind date eșantionului. Există două tipuri de inferență statistică: estimarea statistică; testarea ipotezelor statistice.

Sarcina principală a obținerii estimărilor statistice este de a selecta și justifica cele mai bune estimări care oferă posibilitatea evaluării semnificative a parametrilor necunoscuți ai populației.

Problema estimării parametrilor necunoscuți poate fi rezolvată în două moduri:

1. parametrul necunoscut se caracterizează printr-un număr (punct) - se utilizează metoda de estimare punctuală;
2. estimarea intervalului, adică se determină un interval în care, cu o oarecare probabilitate, poate fi localizat parametrul dorit.

Estimarea punctuala parametrul necunoscut este că un specific valoare numerica Estimarea eșantionului este considerată cea mai bună aproximare a parametrului populației adevărate, adică parametrul populației necunoscut este estimat printr-un singur număr (punct) determinat din eșantion. Cu această abordare există întotdeauna riscul de a face o eroare, astfel încât estimarea punctuală trebuie completată cu un indicator posibilă eroare la un anumit nivel de probabilitate.

Abaterea sa standard este considerată eroare medie de estimare.

Apoi, estimarea punctuală a mediei generale poate fi reprezentată ca un interval

unde este media aritmetică eșantionului.

Când se face o estimare punctuală, se folosesc mai multe metode pentru a obține estimări din datele eșantionului:

1. metoda momentelor, în care momente ale populației generale sunt înlocuite cu momente ale populației eșantionului;
2. metoda celor mai mici pătrate;
3. metoda maximului de probabilitate.

În multe probleme, este necesar să se găsească nu numai o estimare numerică a unui parametru de populație, ci și să se evalueze acuratețea și fiabilitatea acestuia. Acest lucru este deosebit de important pentru mostrele relativ mici. O generalizare a estimării punctuale a unui parametru statistic este aceasta estimarea intervalului- găsirea unui interval numeric care să conţină parametrul estimat cu o anumită probabilitate.

Datorită faptului că la determinarea caracteristicilor generale din datele eșantionului există întotdeauna o anumită eroare, este mai practic să se determine intervalul centrat pe estimarea punctuală găsită, în cadrul căruia se află adevărata valoare dorită a parametrului estimat al caracteristicii generale cu o anumită probabilitate specificată. Acest interval se numește interval de încredere.

Interval de încredere este un interval numeric care, cu o probabilitate dată r, acoperă parametrul estimat al populației. Această probabilitate se numește încredere. Probabilitatea de încredere r este probabilitatea care poate fi considerată suficientă în cadrul problemei care se rezolvă pentru a aprecia fiabilitatea caracteristicilor obţinute pe baza observaţiilor eşantionului. mărimea

se numește probabilitatea de a greși nivelul de semnificație.

Pentru un eșantion (punctual) estimare ȘI * (theta) parametru ȘI al populației generale cu acuratețe ( eroare extremă) D și probabilitatea de încredere r, intervalul de încredere este determinat de egalitatea:

Probabilitatea de încredere r face posibilă stabilirea limitele de încredere fluctuația aleatorie a parametrului studiat ȘI pentru un eșantion dat.

Următoarele valori și valorile lor corespunzătoare sunt adesea luate ca probabilitate de încredere: niveluri de semnificație

Tabelul 1. - Probabilitățile de încredere și nivelurile de semnificație cel mai frecvent utilizate

De exemplu, un nivel de semnificație de 5 procente înseamnă următoarele: în 5 cazuri din 100, există riscul de a face o eroare la identificarea caracteristicilor populației din datele eșantionului. Sau, cu alte cuvinte, în 95 de cazuri din 100, caracteristica generală identificată pe baza eșantionului se va situa în intervalul de încredere.

Distribuțiile în statistica matematică sunt caracterizate de mulți parametri statistici. Estimarea parametrilor de distribuție necunoscuți pe baza diferitelor date de eșantion vă permite să construiți distribuții ale unei variabile aleatorii.

Găsiți o estimare statistică a unui parametru de distribuție necunoscut - găsiți o funcție a variabilelor aleatoare observate care va da o valoare aproximativă a parametrului estimat.

Estimările statistice pot fi clasificate ca nepărtinitoare, părtinitoare, eficiente și consecvente.

Definiția 1

Estimare imparțială-- estimarea statistică $Q^*$, care, pentru orice valoare a mărimii eșantionului, are o așteptare matematică egală cu parametrul estimat, adică

Definiția 2

Estimare părtinitoare-- estimarea statistică $Q^*$, care, pentru orice valoare a mărimii eșantionului, are o așteptare matematică care nu este egală cu parametrul estimat, adică

Definiția 4

Evaluare consistentă-- o evaluare statistică în care, cu o dimensiune a eșantionului care tinde spre infinit, probabilitatea tinde către parametrul estimat $Q.$

Definiția 5

Evaluare consistentă-- o estimare statistică în care, pe măsură ce dimensiunea eșantionului tinde spre infinit, varianța estimării nepărtinitoare tinde spre zero.

Medii generale și eșantionare

Definiția 6

Media generală-- media aritmetică a valorilor variantei populației generale.

Definiția 7

Eșantion mediu-- media aritmetică a valorilor populației eșantionului.

Valorile mediei generale și ale eșantionului pot fi găsite folosind următoarele formule:

Dacă valorile opțiunii $x_1,\ x_2,\dots ,x_k$ au, respectiv, frecvențe $n_1,\n_2,\dots ,n_k$, atunci

Dacă valorile opțiunii $x_1,\ x_2,\dots ,x_k$ sunt diferite, atunci

Asociat acestui concept este conceptul de abatere de la medie. Această valoare este găsită folosind următoarea formulă:

Abaterea medie are următoarele proprietăți:

$\sum(n_i\left(x_i-\overline(x)\right)=0)$

Abaterea medie este zero.

Variante generale, eșantion și corectate

Un alt dintre parametrii principali este conceptul de varianță generală și de eșantion:

Varianta generala:

Varianta eșantionului:

Abaterile standard generale și de eșantion sunt, de asemenea, asociate cu aceste concepte:

Pentru estimarea varianței generale se introduce conceptul de varianță corectată:

Se introduce și conceptul de abatere standard corectată:

Exemplu de rezolvare a problemei

Exemplul 1

Populația este definită de următorul tabel de distribuție:

Poza 1.

Să găsim pentru aceasta media generală, varianța generală, abaterea standard generală, varianța corectată și abaterea standard corectată.

Pentru a rezolva această problemă, facem mai întâi un tabel de calcul:

Figura 2.

Valoarea $\overline(x_в)$ (media eșantionului) se găsește prin formula:

\[\overline(x_in)=\frac(\sum\limits^k_(i=1)(x_in_i))(n)\]

\[\overline(x_in)=\frac(\sum\limits^k_(i=1)(x_in_i))(n)=\frac(87)(30)=2,9\]

Să găsim varianța generală folosind formula:

Abaterea standard generala:

\[(\sigma )_в=\sqrt(D_в)\aproximativ 1,42\]

Varianta corectata:

\[(S^2=\frac(n)(n-1)D)_в=\frac(30)(29)\cdot 2,023\aproximativ 2,09\]

Abaterea standard corectată.

După studierea acestui capitol, studentul va stiu, că un eșantion poate fi considerat ca un analog empiric al unei populații generale, că cu ajutorul datelor eșantionului se pot judeca proprietățile unei populații generale și se pot evalua caracteristicile acesteia, legile de bază ale distribuției estimărilor statistice, a fi capabil să produce estimări punctuale și pe intervale ale parametrilor populației folosind metoda momentelor și probabilității maxime; proprii modalităţi de a determina acurateţea şi fiabilitatea estimărilor obţinute.

Tipuri de estimări statistice

Ceea ce știm despre parametrii populației generale este că aceștia există în mod obiectiv, dar este imposibil să-i determine direct din cauza faptului că populația generală este fie infinită, fie excesiv de mare. Prin urmare, întrebarea poate fi doar despre evaluarea acestor caracteristici.

S-a stabilit anterior că pentru un eșantion extras dintr-o populație generală, sub rezerva condițiilor de reprezentativitate, se pot determina caracteristici care sunt analoge cu caracteristicile populației generale.

cjp Definiție 8.1. Valorile aproximative ale parametrilor de distribuție găsiți din eșantion se numesc estimări ale parametrilor.

Să notăm parametrul estimat al variabilei aleatoare (populația generală) ca 0, iar estimarea acestuia obținută folosind eșantionul ca 0.

Un scor de 0 este o variabilă aleatorie deoarece orice eșantion este aleatoriu. Estimările obținute pentru diferite eșantioane vor diferi unele de altele. Prin urmare, vom considera 0 o funcție în funcție de eșantion: 0 = 0(X in).

ShchR Definiție 8.2. Evaluarea statistică se numește bogat, dacă tinde probabil către parametrul estimat:

Această egalitate înseamnă că evenimentul 0=0 devine fiabil pe măsură ce dimensiunea eșantionului crește la nesfârșit.

Un exemplu ar fi frecvența relativă a unui eveniment A, care este o estimare consistentă a probabilității acestui eveniment în conformitate cu teorema lui Poisson (vezi formula (6.1), partea 1).

Definiție 8.3. Se spune că o estimare statistică este eficientă dacă are cea mai mică varianță pentru aceleași dimensiuni ale eșantionului.

Luați în considerare evaluarea M x așteptări matematice M x variabilă aleatorie X. Ca atare estimare alegem X. Să găsim așteptările matematice ale unei variabile aleatorii X.

Să facem mai întâi o afirmație importantă: dat fiind că toate variabilele aleatoare X, sunt extrași din aceeași populație X, ceea ce înseamnă că au aceeași distribuție ca și X, se poate scrie:

Acum să găsim M(X in):

Astfel, media eșantionului este o estimare statistică a așteptării matematice a unei variabile aleatoare. Această estimare este consecventă deoarece, în conformitate cu corolarul teoremei lui Cebișev, ea converge în probabilitate către așteptarea matematică (6.3).

Am stabilit că, în cazul în cauză, așteptarea matematică a estimării alese de noi (variabila aleatoare) este egală cu parametrul estimat în sine. Estimările cu această proprietate ocupă loc specialîn statistica matematică, ele sunt numite imparțial.

Definiție 8.4. Estimarea statistică © se numește imparțial dacă așteptarea sa matematică este egală cu parametrul estimat

Dacă această cerință nu este îndeplinită, atunci estimarea se numește părtinitoare.

Astfel, media eșantionului este o estimare imparțială a valorii așteptate.

Să analizăm părtinirea varianței eșantionului D, dacă se alege ca estimare a varianței generale Dx. Pentru a face acest lucru, să verificăm dacă condiția (8.2) este îndeplinită pentru?):

Să transformăm fiecare dintre cei doi termeni rezultați:

Aici a fost folosită egalitatea M(X.) = M(X 2), echitabil din același motiv ca (8.1).

Să ne uităm la al doilea termen. Folosind formula sumei pătrate P termenii pe care îi primim

Ținând cont din nou de egalitatea (8.1), precum și de faptul că X și X sunt variabile aleatoare independente, scriem

si in final obtinem:

Să substituim rezultatele obținute în (8.3)

După transformare obținem

Astfel, putem concluziona că varianța eșantionului este deplasat estimarea varianţei generale.

Ținând cont de rezultatul obținut, am stabilit sarcina de a construi o estimare a varianței generale care să satisfacă condiția de nepărțire (8.2). Pentru a face acest lucru, luați în considerare variabila aleatoare

Este ușor de observat că pentru această cantitate este îndeplinită condiția (8.2):

Rețineți că diferențele dintre varianța eșantionului și varianța eșantionului corectată devin nesemnificative la dimensiuni mai mari ale eșantionului.

Atunci când alegeți estimări ale caracteristicilor variabilelor aleatoare, este important să cunoașteți acuratețea acestora. În unele cazuri, este necesară o precizie ridicată, iar uneori este suficientă o estimare aproximativă. De exemplu, atunci când planificăm un zbor de legătură, este important pentru noi să cunoaștem cât mai exact cu putință ora planificată a sosirii la punctul de legătură. Într-o altă situație, de exemplu, fiind acasă și așteptând un curier cu marfa pe care am comandat-o, precizia ridicată a orei sosirii nu este importantă pentru noi. În ambele cazuri, variabila aleatoare este timpul de sosire, iar caracteristica variabilei aleatoare care ne interesează este timpul mediu de călătorie.

Există două tipuri de evaluări. În primul caz, sarcina este de a obține o valoare numerică specifică a parametrului. Într-un alt caz, se determină un interval în care parametrul de interes pentru noi scade cu o probabilitate dată.