Koronavírus-maszk viselése: A „kék” és a „vörös” állapot összehasonlítása és a kudarc emlékműve

Van-e különbség a maszkok viselésében a kék állapotokban a vörös állapotokhoz képest? Statisztikailag szignifikáns ez a különbség?

Ez azon az adatkészleten alapul, amelyet a New York Times Github-tól szereztem be. A County-FP oszlop értékeit államok nevével helyettesítettem. Miután ezt megtettem, két csoportot hoztam létre, kék állapotokat és piros állapotokat, és összehasonlítottam mindegyiket az eredeti adathalmazban már felsorolt ​​attribútumokkal.

A New York Times b és a New York Times által összeállított adatok alapján megmutattam a maszkok viselésének gyakoriságát azokban az államokban, amelyek hagyományosan republikánusnak szavaztak, összehasonlítva azokkal az államokkal, amelyek a az elnökválasztás. Nem vettem fel a lengésállapotokat, és nem is vettem fel területeket az adataimba

A jövőben remélem, hogy meghatározom az átviteli sebesség összefüggését az adatok bemutatása mellett az Egyesült Államok térképén.



A fenti grafikonok alapján egyértelmű különbség van a maszk viselése között a vörös és a kék állapot között. Ha észreveszi, az első oszlopdiagram jelentős különbséget mutat, amikor megvizsgáljuk a kék állapotban mindig maszkot viselő személyek számát a vörös állapotban mindig maszkot viselők számához képest.

Ttest_indResult: (T-tesztet hajtottunk végre az adatkészletek mindkét „MINDIG” oszlopán. Az eredmények alább vannak.)

(statisztika = -20,677110839932922,

p-érték = 1.9076334514876344e-86)

H0: (Null hipotézis) P> 0,05, ezért nem tudjuk elutasítani a nullhipotézist. Valószínűleg a két adatkészlet megegyezik, és minden különbség statisztikailag jelentéktelen.

H1: (Alternatív hipotézis) P <0,05, ezért elutasítjuk a nullhipotézist. Valószínűleg a két adatkészlet nem azonos, és a különbség statisztikailag szignifikáns.

Arra a következtetésre jutok, hogy elutasítjuk a nullhipotézist, és hogy többen viselnek kék színű maszkot, mint vöröset, különösen, mivel az mindig a „maszk viselésének” tulajdonságára vonatkozik.

A kudarc emlékműve

Ez a projektem eredeti adatsora, amelyet a New York Times Github-ból szereztem. A CountyFP oszlop értékeit államok nevével helyettesítettem. Ezután összehasonlítjuk a CDC adatkészlettel, és a kettőt értékeljük bármilyen összefüggés szempontjából. A cél a Covid-19 átviteli sebessége lesz. Hozzáadom az átviteli sebesség céloszlopát a jelenlegi koronavírus-adatkészletemhez, és a képzési adatok alapján meghatározom, hogy modellem képes-e megjósolni a Covid-19 előfordulását állapotonként.

Üzleti kérdés:

Annak ismerete, hogy a vírus mikor és hol fog fellendülni, segít a gyógyszergyáraknak az elosztó hálózatokra és az ellátási láncokra gyakorolt ​​hatás megértésén túl. A katasztrófa utáni helyreállítás és az üzleti folytatás szempontjából is hasznos a hatás csomópontjainak meghatározása, valamint a gyártás és a terjesztés különféle csatornáiba történő beépítés.

Nagy adatállományok, nagy adatkészletek, nagy adatkészletek … erre van szükség a modell kiképzéséhez. Ideális esetben minél nagyobb az adatkészlet, annál jobbak az adatok. A projektem a koronavírus előfordulását jósolta a maszkhasználat alapján. Jaj, lehet, hogy ez a Don Quijote többet harapott, mint amennyit meg tud rágni. A projekt kudarcának fő oka az, hogy az adatkészletem túl kicsi volt. Ötvenegy megfigyelés rendkívül apró. (Még a legkisebb gépi tanulási példában is találtam legalább 300 megfigyelést, ami még mindig túl kicsi.) A második hibát abban követtem el, hogy olyan adatkészletet választottam, amely túlságosan erősen támaszkodott a folyamatos változókra. Mégis volt néhány jó hír, azt tapasztaltam, hogy összefüggés van a maszkhasználat és a Covid-19 előfordulása között. Amint az alább látható, a maszkhasználat mértékének emelkedésével a koronavírus aránya csökken. A következő képen a trendvonal ellentétes irányú mozgását láthatjuk, ahogy a Covid-19 aránya emelkedik, a maszkhasználat mértéke csökken. Az alábbi képen korrelációs mátrix látható. A mátrixban 0,72 összefüggést látunk azok között az emberek között, akik soha nem viselnek maszkot, és a vírusban szenvedők esetszámával, amely a vírussal küzdők száma 100 000 főre vonatkoztatva. Egy regressziós modell R2-pontszámot adott nekem -0,027349526452735473. Nyilvánvaló, hogy ez több okból sem volt pontos. Nem próbáltam ki a többi modellt, mert hibásak voltak az adataim. Egy helyes modellben előfordulhat szivárgás, mivel a halálozási arány oszlop hasonló lehet az esetszám oszlophoz, bár úgy tűnik, hogy nincs igazán nagy összefüggés a halálozási aránygal és az átviteli sebességgel. A másik probléma az volt, hogy nem volt elég funkció, SOHA, RITKÁN, NÉHÁNY, GYAKOR és MINDIG mind oszlop, amely a maszk használatát méri, nem vagyok biztos benne, hogy mi a probléma, ez ismét szivárgás lehet.

Azért nem találtam a témámhoz tartozó adatkészletet, mert a CDC nem rendelkezett nyilvánosan elérhető adatokkal a megyék alapján. Az Egyesült Államokban több mint 3000 megye van. Ha lenne olyan adatkészletem, amely megyénként kiszámítaná a haláleseteket, elegendő adatom lett volna a modellem képzéséhez. Alternatív megoldásként használhattam volna dummy adatokat a projektemhez, de nem voltam biztos benne, hogyan kell ezt megtenni. Még ahhoz is, amim van, két adatkészletet kellett használnom, mellékeltem az egyik adatállományom oszlopát, a Covid-19 előfordulását az elmúlt hét napban (CDC adatok), a New York Times maszkok felmérési adataival. . Két fő figyelmeztetés, még ha elég nagy adatkészletem is van, és a modellem tökéletesen működik, az összefüggés nem okozati összefüggés. Az, hogy a Covid-19 összefügg a maszkhasználat hiányával, még nem jelenti azt, hogy a maszk hiánya koronavírust okoz. Emellett a felmérés adatai köztudottan pontatlanok, általában ugyanaz a problémájuk, mint nekem, a minta nem elég nagy.




DSPT9_Build1_coronavirus hivatkozások:

Ez az első projektem. Koronavíruson használtam a New York Times adattárát, és elágazást végeztem a saját tárházamhoz. Itt van a fő ág, ahonnan elágaztam: https://github.com/nytimes/covid-19-data

Ezt a cikket írta a NY Times: https://www.nytimes.com/interactive/2020/07/17/upshot/coronavirus-face-mask-map.html

Adataimat a következőknek tulajdonítom:

„The New York Times és Dynata”

vagy

“Becslések a The New York Times-tól, a Dynata által július 2. és július 14. között készített nagyjából 250 000 interjú alapján.”