Hypothesetesten

Dit is een van de aanvankelijk stom klinkende maar veelgebruikte concepten van Machine Learning. Zoals de naam zelf suggereert, wordt dit concept gebruikt om conclusies te trekken over gegevens.

Definitie: Het is een proces dat wordt gebruikt om een ​​aantal claims over de hele bevolking te maken op basis van statistische, inferentiële analyse die is uitgevoerd op een beperkte hoeveelheid gegevens.

De reden achter het gebruik van het woord claims is dat je er niet zeker van kunt zijn dat je conclusies waar of geldig zijn voor de hele populatie. Aangezien dit claims zijn die over de hele populatie worden gedaan, zijn (gegevens) gebaseerd op analyse op een beperkte steekproef van gegevens. Daarom kunnen we de beweringen niet verzekeren en daarom wordt het een hypothese genoemd.

Je vraagt ​​je misschien af ​​of het alleen maar claims en aannames zijn, waarom dit concept dan wel bestaat…. Nou, laat me je uitleggen aan de hand van een voorbeeld.

Overweeg het geval van de toegestane waterhardheid in drinkwater. Laten we zeggen dat een TDS-niveau lager dan of gelijk aan 900 (ml / liter) is toegestaan. Het is logisch en fysiek niet mogelijk voor een kwaliteitscontroleur om het TDS-niveau in elke liter water te controleren. Dus in een dergelijk scenario waar het berekenen van een parameter op de hele populatie niet haalbaar is, gebruiken we hypothesetests .

Laten we nu eens kijken hoe deze hypothese wordt uitgevoerd.

Er zijn twee soorten hypothesen:

Null-hypothese (H₀): Dit is de aanname die in het huidige scenario wordt gemaakt. Het wordt aangeduid met H₀. Voor het bovenstaande voorbeeld kunnen we de nulhypothese geven als

H₀: TDS-waterpeil ≤900 (ml / liter)

d.w.z. Deze hypothese gaat ervan uit dat het TDS-niveau van water ruim binnen het toegestane bereik ligt.

Alternatieve hypothese (H₁): Het is een aanname die wordt gemaakt als de nulhypothese onjuist is. Het wordt aangeduid met H₁ of Ha. Voor het bovenstaande voorbeeld. we kunnen de alternatieve hypothese geven als

H₁: TDS-waterniveau & gt; 900 (ml / liter)

d.w.z. deze hypothese gaat ervan uit dat het TDS-niveau van water niet binnen het toegestane bereik ligt.

Beide typen hypotheses zijn complementair / spreken elkaar tegen. Omdat de nulhypothese altijd gebaseerd is op het huidige scenario, zal het altijd gelijkheid omvatten (& lt; =, = of & gt; =). Als de oorspronkelijke claim geen gelijkheid (& lt ;, niet gelijk, & gt;) bevat, is de nulhypothese het complement van de oorspronkelijke claim. De nulhypothese altijd omvat een gelijkteken . Veronderstelling van alternatieve hypothese Daagt altijd de aannames van de nulhypothese uit.

Om de plausibiliteit van deze hypothesen te achterhalen, wordt een willekeurige hoeveelheid gegevens geanalyseerd. Op basis van deze analyse worden claims gemaakt over de gehele populatie. Om deze beslissing te nemen, zijn er hoofdzakelijk twee soorten analyses die worden gedaan

Soorten hypothesetests:

Met behulp van deze testmethoden wordt besloten de hypothese te accepteren of te verwerpen.