Z 테스트 — 이해하기

통계 테스트에 대해 듣고 많은 테스트에서 꽤 유명한 테스트가 Z 테스트입니다. 언제 사용하는지 알 수 있지만 왜 특정 유형의 공식이 있는지 생각하지 못했을 것입니다.

이 기사가 끝날 때 쯤이면이 테스트를 소유 한 것처럼 느끼고이 테스트에 대해 알게 될 지식에 놀라실 것임을 약속드립니다.

시작하겠습니다.

이 테스트는 사용자가 Central Limit 정리에 대해 어느 정도 알고 있다고 가정합니다. 그렇지 않은 경우 이전 게시물을 참조하십시오.

Z 테스트로 넘어 가기 전에이 기사를 더 잘 이해할 수있는 몇 가지 개념을 살펴 보겠습니다.

정상 분포 :

가우스 분포라고도하는 것은 평균에 대해 대칭 인 확률 분포입니다. 대부분의 값이 평균 근처에 있고 어느 방향 으로든 평균에서 멀어짐에 따라 확률이 감소 함을 의미합니다. 종 모양의 곡선이라고도합니다. 평균, 중앙값 및 최빈값이 일치합니다.

표준 ​​정규 분포 :

평균 = 0, 표준 편차 = 1 인 정규 분포의 특별한 경우입니다.

정규 분포를 표준 정규 분포로 변환하기 위해 표준 점수라고도하는 Z 점수를 사용합니다.

x = 표준화하려는 값

µ = x 분포의 평균

σ = x 분포의 표준 편차

경험적 규칙 :

데이터의 약 68 %, 95 % 및 99.7 %가 각각 정규 분포의 1, 2 및 3 표준 편차 내에 있다고 말합니다.

중심 한계 정리 :

중앙 한계 정리 (CLT)는 표본 평균의 표본 분포 의 평균이 모집단 분포와 상관없이 표본 크기가 30보다 클 때 모집단 평균과 같다고 말합니다.

위에서 강조 표시된 용어의 의미를 이해해 보겠습니다. 샘플링 분포 는 분포가 샘플로 구성되고 이후 부분 즉 표본은 분포가 통계적 ‘표본의 평균’이라는 것을 의미합니다. 중앙 극한 정리에서는 크기가 30보다 큰 샘플 수를 만들고 샘플의 평균을 계산 한 다음 플로팅합니다.

또한 샘플링 평균의 샘플링 분포가 정규 분포를 따를 것이라고 명시합니다.

수학적으로는

μ 는 모집단 평균이고 σ 는 모집단 표준 편차입니다. 모집단에서 크기가 N 인 여러 표본을 추출하면 CLT에 따라 표본 평균의 표본 분포 평균은 다음과 같이 주어집니다.

샘플 평균의 샘플링 분포 표준 편차는 다음과 같습니다.

위 용어를 표준 오류라고도합니다. 따라서 모든 분포에 대해 표준 편차가 있습니다. CLT에는 표본 평균 분포가 있습니다. 표본 평균의 표준 편차는 평균의 표준 오차 (단지 멋진 용어)라고합니다.

마찬가지로 표본 분산 분포를 그리는 경우 분포의 표준 편차를 분산의 표준 오차라고합니다.

절정 시간

이제 선행 조건을 완료 했으므로 위의 주제가 Z 테스트와 어떻게 관련되는지 살펴 보겠습니다. 점을 연결해 보겠습니다.

우리 모두는 Z 검정이 표본 분포가 평균 μ 인 모집단에서 나오는지 여부를 확인하는 데 사용된다는 것을 알고 있습니다. 이를 수행하기 위해 표본 평균이 모집단 평균과 가깝거나 멀리 있는지 확인합니다. 표본 평균이 모집단에서 멀리 떨어져 있으면 다른 모집단에서 온 것이라고 말하지만 가깝게 있으면 온다라고 말합니다. 같은 인구에서.

이를 위해 공식을 사용하고 z 통계가 1.96보다 크거나 작은 지 확인합니다 (양측 검정을 고려하면 알파 = 5 %).

z = z 통계

X̄ = 표본 평균

μ = 모집단 평균

σ = 모집단 표준 편차

n = 표본 크기

이 공식이있는 이유를 이해해 보겠습니다.

따라서 평균이 μ 이고 표본 평균이 인 모집단이 있습니다. CLT를 사용하면 많은 표본이 있고 표본 평균 분포를 플로팅 할 수 있습니다. CLT에 따르면이 표본 평균 분포의 평균은 모집단 평균 μ 과 같고 표준 편차는 σ / √n 이됩니다. 여기서 σ 은 모집단 표준 편차이고 n 은 표본 크기입니다.

Z 테스트에서 우리는 기본적으로 표본 평균이 모집단 평균에서 얼마나 멀리 떨어져 있는지 확인하고 싶습니다. 항상 다른 표본 평균이 발생하며 다른 표본 평균에 대해 동일한 계산을 수행하여 얼마나 멀리 있는지 확인합니다. 모집단 평균에서 표본 평균.

최적화를 위해 배포를 표준화합니다. 그러나 정규 분포 만 표준화 할 수 있으며 분포가 정규 분포인지 여부는 확실하지 않습니다. 그렇다면이를 어떻게 달성 할 수 있을까요?

위에서 우리는 다중 표본 평균이 있다고 가정하고 표본 평균 (X̄)은 표본 평균 분포에서 비롯됩니다. CLT는 표본 평균의 분포가 정규 분포를 따를 것이라고 말합니다.

따라서 우리의 통계, 표본 평균 (X̄)은 정규 분포에서 비롯되므로 z 점수 공식을 사용하여 표본 평균 (X̄)을 표준화 할 수 있습니다.

따라서 위의 공식에서는 평균이 μ 이고 표준 편차가 σ

인 분포에서 나온 x 를 표준화하려고합니다.

그러나 우리의 경우 우리는 평균 μ (이것은 모집단 평균 = 표본 평균의 평균)과 에 의해 주어진 표준 편차를 갖는 분포에서 나오는 표본 평균 즉 X̄를 표준화하려고합니다. σ / √n. 따라서 z 점수 공식에서이 값을 대체하면

일반적으로 가설 검정에서는 알파 = 5 %를 고려하므로 양측 Z 검정에서는 임계 값이 1.96 및 -1.96으로 표시됩니다. 1.96은 어디에서 왔습니까?

따라서 위의 그래프는 표준 정규 분포이며 또한 정규 분포임을 확인했습니다. 경험적 규칙을 사용하면 약 95 % 값이 정규 분포의 2 개의 표준 편차와 함께 있다는 것을 알고 있습니다. 그래프 아래의 전체 면적을 100 %로 고려하면 100 — 95 = 5 %가 남아 있고 음영 처리 된 영역은 2.5 + 2.5 = 5 %입니다. 따라서 1.96 표준 편차 2 표준 편차이므로 값 1.96입니다. 따라서 실제로 정규 분포의 경우 정확히 95 % 값은 1.96 표준 편차 내에 있으므로 값 1.96입니다.

이제 Z 테스트에 대해 깊이 이해하고 자신이 소유 한 것처럼 느끼기를 바랍니다. 기사 초반에했던 약속을 지켰다는 느낌이 든다면 박수 쳐주세요! 박수! 그리고 박수! 이렇게 직관적 인 기사를 만들게 될 것입니다.

아래에 의견이나 질문을 남겨주세요. Linkedin에서 저를 찾을 수 있습니다.