Recapitulare privind testarea ipotezei: determinarea mărimii eșantionului

Reiterând ceea ce am analizat în acest weekend despre testarea ipotezelor și recapitularea exemplului din ultima postare.

Testarea ipotezei este o metodă statistică pentru a testa o presupunere și pentru a oferi încredere răspunsurilor noastre. Vrem să știm despre o măsură în populație, dar din moment ce obținerea unui răspuns din partea populației va fi prea consumatoare de timp și aproape imposibilă (imaginați-vă măsurarea timpului pe care fiecare mașină îl ajunge pentru a ajunge la terminalul B de la o milă distanță de LAX), găsim o alternativa. Alegem câteva mașini și le măsurăm timpul de călătorie și folosim media eșantionului pentru a estima media populației (toate mașinile aflate la 1 mile distanță care călătoresc către terminalul B LAX). Să presupunem că LAX a făcut niște eșantionări și, la finalul lor, au susținut că timpul necesar pentru a ajunge la terminalul B de la o milă distanță este de 20 de minute. În esență, se presupune aici că timpul real de călătorie până la terminalul B de la o milă distanță este de 20 de minute. Vrem să testăm dacă este adevărat și credem că ar putea fi de fapt mai mare. Deci, în acest caz, primul pas este de a stabili ipotezele:

H0: μ = 20 de minute

H1: μ & gt; 20 de minute

μ: timpul mediu de sosire la terminalul B LAX de la o milă distanță

Apoi vrem să mergem la LAX și să colectăm câteva mostre. Poate îi avem pe prieteni să conducă în diferite ore în diferite zile și să înregistreze timpul de călătorie. Dar înainte de aceasta, vrem să știm câte eșantioane sunt suficiente pentru a detecta diferența, iar diferența ar fi semnificativ mare, astfel încât să putem face concluzii semnificative statistic.

Determinarea mărimii eșantionului depinde de câțiva factori:

Nivelul de semnificație (α) este probabilitatea de a respinge ipoteza nulă atunci când este adevărată. Aceasta este, de asemenea, cunoscută sub numele de eroare de tip I. De obicei, dorim să menținem această eroare mică, deci este de obicei setată la 0,05 sau mai puțin. Intuitiv, cu cât este mai mare nivelul de semnificație, cu atât suntem mai toleranți ca testul să comită erori, deci cu cât vom avea mai puține probe.

Puterea este probabilitatea de a respinge ipoteza nulă atunci când nu este adevărată. De asemenea, este egală cu eroarea 1 de tip II, care este probabilitatea de a nu respinge ipoteza nulă atunci când nu este adevărată. Deci, cu cât este mai mare puterea, cu atât este mai bun testul. Cu toate acestea, ar trebui să avem în vedere faptul că există un compromis între nivelul de semnificație și putere. Cu cât este mai mare nivelul de semnificație (cu cât este mai mare eroarea de tip I), cu atât este mai mică eroarea de tip II, cu atât este cu atât mai mare puterea. În realitate, dorim să minimalizăm ambele erori cât mai mult posibil, dar din moment ce scăderea uneia va crește cealaltă, trebuie să găsim un echilibru. De obicei, setăm puterea la 0,8, permițând astfel 0,2 erori de tip II. Observați că aceasta este mai mare decât valoarea obișnuită a erorii de tip I, care este 0,05 sau mai mică. Există argumente care spun că eroarea de tip I este mai gravă, dar în realitate ar trebui să depindă de testul specific. În exemplul de mai sus, a face o eroare de tip I înseamnă că timpul real de călătorie este de 20 de minute, dar îl respingem. Atunci cineva ar putea folosi acest lucru pentru a da în judecată LAX pentru că a făcut o reclamație falsă, rezultând în încercări lungi și poate că LAX trebuie să cheltuiască o mare parte din investiții pentru îmbunătățirea timpului de călătorie, în timp ce adevăratul timp de călătorie este deja de 20 de minute. Efectuarea unei erori de tip II înseamnă că timpul real de călătorie este mai mare de 20 de minute, dar nu respingem valoarea nulă. LAX nu mai investește în îmbunătățirea timpului de călătorie, iar călătorii continuă să se plângă și să protesteze la aeroport, ceea ce duce la un trafic mai slab. Care este mai rau? Va fi diferit în perspective diferite ale oamenilor. Oricum, dacă dorim o putere mai mare, testul trebuie să poată detecta mai ușor diferența dintre valorile nule și cele alternative, iar a avea o dimensiune mai mare a eșantionului înseamnă o varianță mai mică și, astfel, un interval de încredere mai mic, astfel încât va fi mai ușor de observat diferentele. Deci, cu cât este mai mare puterea dorită, cu atât este mai mare dimensiunea eșantionului.

Efect minim detectabil (mde) este diferența minimă dintre valoarea nulă și valoarea alternativă pe care dorim să o testăm. Cât de mare ar trebui să fie valoarea alternativă, așa că am putea spune că timpul de călătorie este mult mai mare de 20 de minute. Sunt 30 de minute? 40 de minute? 60 de minute? Depinde de context. Poate că, în acest caz, am putea compara timpul mediu de călătorie de 1 milă în timpul unui blocaj de trafic care nu este cauzat de accidente și îl putem folosi ca punct de referință. Cu cât este mai mare mde, cu atât este mai ușor de observat diferența și, prin urmare, este nevoie de mai puțin eșantion.

Varianța eșantionului înseamnă varianța observațiilor din eșantioane. Dar ați putea spune, nu determinăm încă numărul de eșantioane de luat și nici măcar nu am observat eșantioanele, de unde cunoaștem varianța eșantionului? Acest lucru este foarte corect, deci vom estima varianța eșantionului și vom lua cel mai rău caz, astfel încât să ne asigurăm că obținem un eșantion suficient de mare. Dacă nu există nicio modalitate de estimare, atunci ne gândim la cât de „variat” dorim să fie eșantionul nostru. De obicei, vrem să-l menținem mic, cam de 2%. Cu cât este mai mare varianța, cu atât este mai greu de detectat diferența și, prin urmare, este nevoie de mai multe dimensiuni ale eșantionului.