본문내용
1. 통계학 정리
1.1. 이산확률분포
1.1.1. 베르누이 분포
베르누이 분포는 확률실험의 결과가 두 가지인 경우에 적용되는 이산확률분포이다. 즉, 성공은 1로, 실패는 0으로 표현할 수 있으며, 각 시행의 성공 확률은 p로 동일하다. 이러한 베르누이 실험을 n번 수행할 때 성공한 횟수를 나타내는 확률변수 X는 이항분포 Bin(n, p)를 따르게 된다.
베르누이 분포의 확률밀도함수(PDF)는 f(x) = p^x (1-p)^(1-x)로 나타내며, 여기서 x는 0 또는 1의 값을 가진다. 이때 기댓값 E(X)는 p이고, 분산 Var(X)는 p(1-p)이다. 베르누이 분포의 최대우도추정량(MLE)은 표본평균 X바로 나타낼 수 있으며, 이는 정규분포 N(p, p(1-p)/n)을 따른다. 이를 이용하여 가설검정을 수행할 수 있는데, 귀무가설 H0: p = p0에 대한 검정통계량은 (X바 - p0)^2 / (p0(1-p0)/n) ~ chi^2(1) 또는 (X바 - p0) / sqrt(p0(1-p0)/n) ~ t(n)의 분포를 따른다.
베르누이 분포는 성공-실패로 표현되는 단순한 확률실험에서 사용되며, 이를 기반으로 하는 이항분포는 다양한 통계적 추론에 활용된다. 베르누이 분포와 이항분포는 주요 이산확률분포의 대표적인 예이며, 통계학의 기초를 이루는 중요한 개념이다.
1.1.2. 이항 분포
확률변수 X를 n번의 베르누이 시행에서 성공 회수라고 정의하면, 이 확률변수 X는 이항분포(Binomial Distribution)를 따른다. 이항분포 X는 Bin(n,p)로 표기되며, n은 베르누이 시행 횟수, p는 각 시행의 성공 확률이다. 이항분포의 확률밀도함수는 f(x) = nCx p^x (1-p)^(n-x)로 나타낼 수 있다.
이항분포의 기댓값은 E(X) = np이며, 분산은 Var(X) = np(1-p)이다. 이는 베르누이 시행을 n번 하는 변수의 평균과 분산이 각각 np와 np(1-p)임을 의미한다.
이항분포의 최대가능도추정량(Maximum Likelihood Estimation, MLE)은 계산이 간단하다. 우도함수 L(p) = π(p^x)(1-p)^(n-x)를 로그취하고 p로 미분하면 p^ML = x/n가 된다. 즉, 실험 횟수 n과 성공 회수 x로부터 p의 최대가능도추정량 p^ML을 구할 수 있다.
이어서 p^ML의 분포를 구하면, p^ML ~ N(p, p(1-p)/n)으로 근사할 수 있다. 이를 활용하면 가설검정을 수행할 수 있다. 예를 들어 귀무가설 H0: p = p0에 대한 검정통계량 W = ((p^ML - p0)^2)/(p0(1-p0)/n)가 카이제곱 분포 χ^2(1)를 따르거나, t = (p^ML - p0)/sqrt(p0(1-p0)/n)가 t분포를 따르게 된다.
이항분포는 베르누이 시행을 n번 반복한 결과를 모델링하는 데 유용하다. 실제로 많은 실험이나 관측에서 이항분포로 근사할 수 있는 경우가 많다. 예를 들어 동전 던지기, 고객 만족도 조사, 제품 불량 검사 등에서 이항분포를 적용할 수 있다.
1.2. 연속확률분포
1.2.1. 정규분포
정규분포는 연속확률변수의 대표적인 분포로, 가우스 분포라고도 불린다. 정규분포의 확률밀도함수는 f(x) = {1} over {sigma sqrt {2 pi }} e ^{- {(x`-` mu ) ^{2}} over {2 sigma ^{2}}}의 수식으로 표현된다. 정규분포의 형태는 평균(μ)과 표준편차(σ)에 의해 결정되며, 평균 주변의 값을 많이 취하고 평균으로부터 좌우 표준편차의 3배 이상 떨어진 값은 거의 취하지 않는 특징을 가진다.
표준정규분포는 모든 정규분포를 평균 0, 표준편차 1로 변환한 분포로, 이를 활용하면 정규분포의 확률값을 계산하기 편리하다. 표준정규분포의 확률밀도함수는 {1} over {sqrt {2 pi }} e ^{- {x ^{2}} over {2}}이다. 정규분포의 가법성이란 독립적인 두 개 이상의 정규분포 확률변수의 합이 다시 정규분포를 따른다는 특징을 말한다. 구체적으로 X` SIM `N( mu _{1} ,` sigma ^{2} _{1} ),`Y` SIM `N( mu _{2} ,` sigma ^{2} _{2} )인 경우 X`+`Y` SIM `N( mu _{1} `+` mu _{2} ,` sigma ^{2} _{1} `+` sigma ^{2} _{2} ), X`-`Y` SIM `N( mu _{1} `-` mu _{2} ,` sigma _{1}^{2} `+` sigma _{2}^{2} )가 성립한다.
정규분포는 통계학 전반에 걸쳐 널리 활용되는 주요 분포이며, 표준정규분포와 정규분포의 가법성 등 그 특징을 이해하고 활용하는 것이 중요하다. 이를 통해 다양한 통계적 분석과 추론에 정규분포를 효과적으로 적용할 수 있다.
1.2.2. 표준정규분포
표준정규분포는 정규분포의 대표적인 사례로, 평균이 0이고 표준편차가 1인 정규분포이다. 정규분포는 평균과 표준편차에 의해 그 형태가 결정되는데, 표준정규분포는 이러한 정규분포의 특징을 표준화한 것이다.
표준정규분포는 정규분포의 모수를 0과 1로 설정함으로써 다양한 정규분포를 하나의 기준으로 표현할 수 있게 해준다. 즉, 모든 정규분포는 표준정규분포로 변환하여 비교하거나 확률을 계산할 수 있게 된다. 표준정규분포의 확률밀도함수는 {1} over {sqrt {2 pi }} e ^{- {x ^{2}} over {2}}로 표현된다.
표준정규분포는 정규분포와 마찬가지로 좌우 대칭의 종 모양을 가지며, 각 α만큼의 면적이 변환 전후에 동일하게 유지된다. 따라서 표준정규분포를 이용하면 정규분포의 확률을 쉽게 계산할 수 있다. 이와 같은 표준정규분포의 특성은 통계학에서 널리...