Statistieken 101: de MAGIC-criteria

Ongeveer 100 jaar geleden introduceerde Ronald Fisher het testen van statistische hypothesen. Fisher wist wat hij deed en in de situaties waarin hij betrokken was (het testen van meststoffen en dergelijke) was het logisch wat hij deed. Maar die methoden werden veel te breed toegepast en mensen begonnen al snel te klagen.

Meer recentelijk begon het klagen effect te krijgen, waarbij belangrijke groepen de problemen opmerkten met significantietesten en p-waarden. Maar … zo niet, wat dan?

De MAGIC-criteria zijn naar voren gebracht in Statistics as Principled Argument door Robert Abelson. Het is gemakkelijk te lezen, met weinig formules maar veel wijsheid. Ik raad degenen die in dit spul geïnteresseerd zijn aan om een ​​exemplaar te kopen.

Abelson somt vijf criteria op om een ​​statistisch argument te beoordelen. Hij noemt ze de MAGIC-criteria.
1. Omvang Hoe groot is het effect? ​​
2. Articulatie Hoe precies is het vermeld?
3. Algemeenheid Hoe breed is het van toepassing?
4. Interessant Hoe interessant is het?
5. Geloofwaardigheid Hoe geloofwaardig is het?

We kunnen zien hoe groot een effect is door middel van verschillende maten van effectgrootte. Sommige hiervan zullen we in latere dagboeken bespreken, maar enkele van de meest voorkomende zijn correlatiecoëfficiënten, het verschil tussen twee gemiddelden en regressiecoëfficiënten. Grote effecten zijn indrukwekkend. Kleine effecten zijn dat niet. Hoe groot is, hangt af van de context en van wat we al weten. Als we bijvoorbeeld ontdekken dat mensen met een nieuw dieetplan (gemiddeld) 10 pond in een maand kunnen afvallen, is dat behoorlijk groot. 10 ons in een maand is vrij klein. Maar als het een op ratten getest dieet was, zou 10 ons veel kunnen zijn.

Articulatie wordt gemeten in wat Abelson Ticks and Buts noemt. Een ‘vinkje’ is een bewering en een ‘maar’ is een uitzondering. Hoe meer teken, hoe beter, hoe minder maar hoe beter. Er zijn ook blobs, die massa’s ongedifferentieerde resultaten zijn. Blobs zijn, zoals je misschien al geraden had, slecht.

Algemeenheid verwijst naar hoe algemeen een effect is. Geldt het overal voor alle mensen? Dat zou heel algemeen zijn. Of is het alleen van toepassing op mensen die 50 of meer dagboeken op dailyKos hebben gepost? Dat zou behoorlijk specifiek zijn. Gewoonlijk zijn meer algemene effecten van grotere waarde dan meer specifieke, maar u moet er zeker van zijn dat in het onderzoek staat hoe algemeen het is.

Interessantheid is erg moeilijk precies te meten, maar een manier is om te zeggen hoe verschillend de gerapporteerde effectgrootte is van wat we dachten dat het zou zijn. Ik las bijvoorbeeld eens een onderzoek waaruit bleek dat zwarte mensen gemiddeld minder verdienen dan blanken. Verontrustend, maar niet interessant. Dat wist ik al, en de grootte van het verschil was groot (wat ik dacht dat het zou zijn) maar niet enorm (wat ik ook wist, want zelfs de gemiddelde blanke verdient niet zoveel). Maar toen ging het verder met te zeggen dat, terwijl zwarte mannen veel minder verdienden dan blanke mannen (meer dan ik dacht dat het verschil zou zijn), zwarte vrouwen en blanke vrouwen bijna hetzelfde verdienden (dat is echt interessant! Ik had gedacht dat zwarte vrouwen verdienden veel minder dan blanken!)

Eindelijk, geloofwaardigheid. Hoe moeilijker een resultaat is om te geloven, hoe strenger u moet zijn over het bewijs dat het ondersteunt.