Hypothesetesten in termen van leken

Als je van Machine Learning of Data Science houdt, is de kans erg groot dat je deze term bent tegengekomen. En een grotere kans dat u misschien niet heeft begrepen wat het precies betekent. Maar ik verzeker u dat u aan het einde van dit artikel een redelijk goed begrip zou hebben van deze term en ook de implicaties ervan voor machine learning.

Laten we beginnen.

Hypothesetesten is een van de twee methoden van inferentiële statistieken (betrouwbaarheidsinterval is een andere). Bij inferentiële statistieken nemen we een steekproef van gegevens van de populatie en berekenen we vervolgens een statistiek (het kan zoiets zijn als gemiddelde, standaarddeviatie, enz.). Vervolgens gebruiken we de waarde van statistiek om de waarde van de corresponderende parameter af te leiden (schatten).

Parameter is populatie, zoals statistiek is steekproef. Wanneer we gemiddelde, standaarddeviatie enz. Van een populatie berekenen, wordt de parameter genoemd, wanneer we voor een steekproef worden berekend, wordt dit statistiek genoemd.

Hypothese is dus een voorstel dat wordt gedaan als basis voor redenering, zonder enige aanname van de waarheid ervan. Er is een reden waarom ik bepaalde woorden heb gemarkeerd en u zou aan het einde van dit artikel de reden weten. Er zijn twee soorten hypothesen Null-hypothese en Alternatieve hypothese.

Nul-hypothese

Laten we proberen dit te begrijpen aan de hand van een voorbeeld. We willen nagaan of er een verschil is tussen het gemiddelde inkomen van Indiase werknemers in het jaar 2019 en 2020. Dus aangezien het woord nul nul of nee betekent, is nulhypothese zou er geen verschil of nul verschil zijn tussen het gemiddelde inkomen over de 2 jaar.

Een nulhypothese kan ook een voorstel zijn dat eerder is gedaan en dat voorstel wordt geaccepteerd.

Wiskundig:

Nulhypothese: gemiddeld inkomen voor jaar 2019 = gemiddeld inkomen voor jaar 2020

Alternatieve hypothese

De alternatieve hypothese zou zeggen dat er een verschil is tussen de twee waarden (welke waarde groter is en welke waarde kleiner is een andere vraag, maar er is een verschil). In ons bovenstaande voorbeeld zou het zijn dat beide inkomens verschillen.

Wiskundig:

Alternatieve hypothese: gemiddeld inkomen voor jaar 2019 ≠ gemiddeld inkomen voor jaar 2020

Een alternatieve hypothese kan ook een stelling zijn die verschilt van de stelling die door de mensen wordt geaccepteerd.

Voorbeeld uit het echte leven

Trump heeft voorgesteld dat antimalaria-tablet Covid-19 zou genezen. Deze stelling zou onze nulhypothese worden. Het is niet bewezen dat het Corona geneest, het wordt alleen voorgesteld, er is geen significant bewijs. Nu komt een onderzoeker naar voren en zegt dat Nee, de antimalaria-tablet geneest Covid-19 niet. Dit zou onze alternatieve hypothese worden.

Als we met hypothesen te maken hebben, bewijzen we nooit dat een hypothese correct is, we bewijzen alleen dat een andere hypothese onjuist is. Net als bij ons rechtssysteem is een persoon onschuldig totdat zijn schuld is bewezen. Als we niet kunnen bewijzen dat een hypothese onjuist is, wordt deze geaccepteerd totdat deze onjuist is gebleken.

De onderzochte zou met significante resultaten moeten komen om zijn voorstel te bewijzen. Als hij dit niet doet, zouden we accepteren dat die antimalaria-tablet Covid-19 geneest.

Implicatie in machine learning

Laten we eens kijken hoe dit concept in ons vakgebied wordt gebruikt. Stel dat we een lineair regressiemodel moeten bouwen. We weten dat aan een lineair regressiemodel enkele kenmerken en gewichten (parameters) zijn toegewezen aan die kenmerken. Hoe komen we erachter dat dit model nuttig is? hypothesetesten komen ons te hulp.

De vergelijking van lineaire regressie is y = β0 + β1×1 + β2×2 +… .. + βnxn

De nulhypothese zegt dat het model geen effect heeft, wat betekent dat β0 = β1 = β2 = …… βn = 0. En dit is wat de nulhypothese altijd zal beweren, het zal beweren dat ons model nutteloos is.

Een alternatieve hypothese zou zijn dat een model met deze parameters enig effect heeft en beter is dan het model met bovenstaande bètawaarden. Dit betekent β0, β1, β2 …… βn ≠ 0

We zullen moeten bewijzen dat dit model significant is met behulp van een hypothesetest. Als we de nulhypothese niet verwerpen, is ons model nutteloos.

Terminologieën

We stellen een bepaalde drempel in en als de p-waarde lager is dan de drempel, verwerpen we de nulhypothese. Over het algemeen is die drempel ingesteld op 0,05, wat betekent dat er 5% kans is dat we een verkeerde beslissing nemen. Het betekent dat als we de nulhypothese 100 keer verwerpen voor een p-waarde kleiner dan 0,05, dat slechts 5 keer onze beslissing verkeerd zou kunnen zijn, rust 95 keer dat het correct zou zijn.

Waarom verwerpen we de nulhypothese als de p-waarde kleiner is dan 0,05?

De hypothesetest die we uitvoeren, gaat ervan uit dat de nulhypothese waar is. Als de nulhypothese waar is, zouden we een hoge waarschijnlijkheid moeten krijgen. Als we een heel kleine kans krijgen, minder dan 5%, dan zijn we er vrij zeker van dat onze aanname dat de nulhypothese waar is, onjuist is, en daarom verwerpen we nul hypo als de p-waarde kleiner is dan 0,05. P-waarde is ook de kans dat wat we hebben gezien (in het bovenstaande voorbeeld dat coëfficiënten niet nul zijn) het gevolg is van een willekeurige kans. Als de kans klein is, zijn we er zeker van dat de verandering niet het gevolg is van een willekeurige kans, dus verwerpen we de nulhypothese.

Opmerking: de drempel is over het algemeen 0,05, d.w.z. 5%, en we kunnen deze ook verlagen tot 1% als we de kans op het nemen van een verkeerde beslissing willen verkleinen. Als we bijvoorbeeld een hypothesetest voor een medicijn uitvoeren, moeten we de kans op het nemen van een verkeerde beslissing verkleinen. In dergelijke gevallen kunnen we de drempel houden op 0,01 of 1%.

Een andere afhaalmogelijkheid uit dit artikel is:

Hypothesetesten in de kern controleren of onze statistiek behoort tot de nulhypotheseverdeling of een andere verdeling. Als het niet tot onze nulhypotheseverdeling behoort, zeggen we dat onze statistiek afkomstig is van een andere verdeling en verwerpen we de nulhypothese.

Als de bovenstaande verklaring niet duidelijk is. Controleer mijn andere artikel dat op dezelfde regels is geschreven en zou u een duidelijk begrip willen geven van de bovenstaande verklaring.

Ik hoop dat ik heb uitgelegd wat hypothesetesten in een notendop is. Voel je vrij om opmerkingen of vragen hieronder te plaatsen, je kunt me vinden op Linkedin.