You can make anything
by writing

C.S.Lewis

by 노다해 May 01. 2025

중심극한정리와 가설무료 카지노 게임


(1) 중심극한정리


앞선 글에서는 추론 통계에서 p-value와 유의수준을 활용하는 가설 검정 과정을 소개했다. 하지만 한 가지 의문이 생긴다. 모집단에 대해 정확히 알지 못하기 때문에 표본을 추출하는 것인데, 어떻게 모집단이 귀무 가설을 따른다고 가정하고 p-value를 계산할 수 있을까? 이때 중요한 역할을 하는 것이 바로중심극한정리(CLT, Central Limit Theorem)다.


충분한 크기의 표본을 여러 번 추출하는 상황이라고 하자.중심극한정리에 따르면 표본 평균의 평균 즉, 표본 평균의 기대값은 모집단의 평균에 수렴하고, 표본 평균의 분포 즉, 표집분포는 정규분포(Normal distribution)로 수렴한다. 이를 통해 모집단의 분포를 정확히 몰라도, 표본 평균을 이용해 통계적 추론이 가능해진다.



무료 카지노 게임


무료 카지노 게임

중심극한정리가 성립하기 위해서는 몇 가지 조건이 필요하다. 우선 표본이 충분히 커야 한다. 보통은 표본크기 n = 30을 기준으로 한다. 돌일한 모집단 분포에서 표본 추출이 이루어져야 하며, 각 표본은 독립적으로 추출되어야 한다. 이를 줄여서 i.i.d.(independent & identically distributed)라고 표기하기도 한다.


마지막으로 모집단에 평균과 분산이 존재해야한다. 평균과 분산이 무한하거나 정의되지 않으면, 중심극한 정리를 사용할 수 없다. 평균과 분산 모두 존재하지 않는 Cauchy 분포나, 분산이 발산하는 power-law 분포에는 중심극한정리를 사용할 수 없다.


중심극한정리에 따르면 모집단의 평균을 모르더라도, 표본 평균의 기대값을 통해 모집단의 평균을 유추할 수 있다. 다만, 모집단의 분산은 알고 있어야 중심극한정리를 사용할 수 있으며, 표집 분포의 분산은 모집단의 분산을 통해 구할 수 있다. 표집 분포의 표준 편차는 표준 오차(Standard Error, SE)라고도 부른다. 이는 표본 평균이 실제 모집단의 평균에서 얼마나 벗어날지를 나타내는 척도이기 때문이다.


무료 카지노 게임


(2) 중심극한정리에 따른 Z 무료 카지노 게임


중심극한정리에 따라 가설검정을 진행해보자. 이 때 귀무 가설(H_0)은 “모집단의 평균은 \mu_Y와 같다”이고, 대립 가설(H_1)은 “모집단의 평균은 \mu_Y와 다르다’이다. 귀무 가설이 성립한다면, 중심극한정리에 따라 표본 평균은 식 (1)과 같은 정규 분포를 따르게 된다.


모든 정규분포는 식 (2)와 같은 표준화를 통해 평균이 0이고 분산이 1인 정규분포 즉, 표준정규분포(Z 분포, Starndard Normal distribution)로 치환할 수 있다. 표준정규분포에서 특정 Z 값에 따른 확률 분포는 잘 알려져 있다. 이에 따라 표본 평균이 발생할 가능성 p-value를 계산하고, 이를 유의 수준(\alpha)와 비교하여 가설 검정을 진행한다. 이렇게 표준정규분포를 통해 가설 검정하는 방식을 Z 검정이라 부른다.



어떤 검정법이든 기본적인 구조는 동일하다.


1) CLT에 따라 E(\bar(Y)) = \mu_Y를 기본 전제로,


2) 데이터 유형에 따라 Z, t, F 등 알맞은 정규화 지수를 정의한다.


3) 해당 정규화 지수에 따라, 귀무가설에 해당하는 분포에서 우리가 검정할 값이 어느 정도의 확률로 발생할지 p-value를 계산하고,이를 \alpha와 비교한다.



검정법 이름은 활용하는 정규화 지수를 따라 Z 검정, t 검정, F 검정 등으로 부른다. 가장 기본적인 Z 검정에 필요한 대부분의 지식은 나의 경우는 고등학교 통계 시간에 배웠다. 하지만 실제로 통계 분석을 진행할 때에 이걸 직접 손으로 계산할 일은 없다. 어차피 사용하는 분석 툴에 이미 구현되어 있는 함수를 쓸 테니 말이다. 심지어 어떤 함수를 쓸지도 검색해보거나 ChatGPT에게 물어보면 된다. 배경 지식이 없다면 가설 검정의 원리를 이해하는 데에는 어려움을 겪겠지만, 요즘 세상에는 사용하는데에는 문제가 없어 보인다.



(3) 편파추정치와 불편파추정치


Z 검정은 모집단의 분산을 알고 있을 때에 사용할 수 있다는 한계가 있다. 모집단의 분산을 알지 못할 때에는 표본 분산으로 모집단의 분산을 추정할 수 있다. 다만 식 (3)과 같이 모집단의 분산보다 작은 값을 추정하게 된다. 이를 편파추정치라 부른다. (유도과정은 생략한다. 검색하거나, 기초통계학 책을 참고하면 확인할 수 있다.)



따라서 표본의 분산으로 모집단의 분산을 추정할 때에는 (n/n-1)만큼의 보정이 필요하다. 보정 결과에 따르면 일반적인 분산 계산법과 다르게 불편파추정치는 식(4)와 같이 일 편차제곱합을 (n-1)로 나누게 된다. 불편파추정치를 표시하는 일반적인 기호는 없는 듯 하다. 여기에서는 임의로 그리스 문자 크시(\xi, \ksi)로 나타내겠다.




(4) 중심극한정리와 t 무료 카지노 게임


이처럼 모집단의 분산을 알지 못해 표본의 분산으로 추정하여 검정에 활용하는 경우를 t 검정이라 부른다. t 검정을 처음 발표한 논문 저자의 이름을 따서 Student’s t 검정이라고 부르기도 한다. t 분포는 표본의 크기가 클수록 표준정규분포로 수렴한다.


가설 검정 방법은 비교 대상, 자료 종류, 모집단의 정보에 따라 그 종류가 다양하다. 지금까지 살펴본 Z 검정과 t 검정은 연속형 데이터의 평균을 비교하는데 사용된다. 다만 모집단의 분산을 아는지 모르는지에 따라 사용하는 방법이 달라질 뿐이다. 또한 t 분포는 표본의 크기인 n이 커질 수록 정규분포로 수렴한다.




(5) 다양한 가설 무료 카지노 게임 방법


지금까지 살펴본 무료 카지노 게임은 모두단일 표본 무료 카지노 게임으로 하나의 표본이 어떤 기준값과 다른지 검정한다. 예를 들어 “우리 반 평균 키가 160cm와 다르다”와 같은 가설을 검정한다.독립표본 무료 카지노 게임은 독립적인 두 표본이 서로 다른지 검정한다. “남학생과 여학생 평균 키가 다르다.”가 그 예시이다. 마지막으로종속표본 무료 카지노 게임은 다이어트로 전후의 몸무게 변화나 부부간 소득 비교와 같이서로 짝지어진 두 집단을 비교하는 경우에 사용한다.


단일 표본 무료 카지노 게임에서는 하나의 표본이 기준값과 같다는 귀무가설을 토대로 검정을 진행한다. 단일 표본 무료 카지노 게임에서 표집분포의 표준오차를 구하는 방법은 앞서 소개했다. 두 표본을 비교하는 검정은 표본 평균의 차이가 없다는 귀무가설을 토대로 진행된다. 이 때의 표준오차는 두 표본의 종속 관계 여부에 따라 달라진다.


만약 두 표본이 종속관계라면 표준오차는 단일 표본 무료 카지노 게임의 경우와 동일하다. 하나의 모집단에서 서로 대응하는 두 표본을 비교 하기 때문이다. 만약 두 표본이 독립관계라면, 두 표본의 분산이 같은지 다른지에 따라 다르다. 분산이 같다면 일반적인 Student’s t 검정을 사용하고, 다르다면 Welch-Aspin 검정을 사용한다. 그렇다면 분산이 같은지 다른지는 어떻게 알 수 있을까? 이것도 방법이 있다.분산분석(ANOVA, Analysis of Variance) 기법을 사용하면 된다. 이 내용은 다음 글에서 소개해보겠다.



(6) 마지막으로


모든 가설 검정은 p-value이 유의수준보다 큰지 작은지비교하는 동일한 구조를 따른다. 다만 데이터의 종류에 따라서 세부적인 계산법이 달라진다. 실제로 데이터 분석을 진행할 때는 이러한 계산을 모두 직접 수행할 필요는 없다. 이미 다양한 통계 분석 도구들이 개발되어있고, 어떤 분석법을 써야하는지 알면 손쉽게 p-value를 얻을 수 있다.


사실 어떤 분석법을 써야하는지조차 이제는 ChatGPT에게 물어보면 된다.거기에 python에서 구현하려면 어떻게 해야하는지 코드도 짜준다.거기에 그림 그릴 때 micro control 하고 싶으면 그것도 바로 알려준다.


예전에는 코드 한 줄, 파라미터 하나 쓸 때 마다 폭풍 구글링했었고,또 자주 쓰거나 유용한 코드는 따로 정리해두기도 했는데,이제 그럴 필요가 없어졌다.


ChatGPT에게 물어보면 술술 답해주니 말이다.


정말이지 편한 세상이다.








브런치는 최신 브라우저에 최적화 되어있습니다.