공부/파이썬을 통한 기초통계학

Normal distribution, 정규 분포

ko_sick 2025. 2. 18. 14:14

😃 Normal Distributuion
정규 분포에 대해서 알아보고, 파이썬을 통해서 간단한 예제 문제를 풀도록 하겠습니다.
파이썬 문제는 https://wikidocs.net/165586 참고했습니다.

 

문제

파이썬으로 정규 분포Normal distribuiton를 구현해보세요.

베이스라인의 code here 을 채우세요.

베이스라인

from scipy.stats import norm # scipy 패키지를 사용합니다. 

def pdf_norm(x, mu=0, sigma=1):
    '''
    주어진 x, mu, sigma에 관한 정규 분포의 확률 값을 출력한다.
    '''
    prob = # code here
    print(f"P(X={x}; mu={mu}, sigma={sigma}) = {prob:.2f}")

Input

pdf_norm(0)

pdf_norm(1.96, 0, 1)

pdf_norm(-1, 2, 10)

Output

P(X=0; mu=0, sigma=1) = 0.40

P(X=1.96; mu=0, sigma=1) = 0.06

P(X=-1; mu=2, sigma=10) = 0.04

 

베이스라인(정답 - 아래 블럭을 클릭해주세요)

더보기
from scipy.stats import norm # scipy 패키지를 사용합니다.

def pdf_norm(x, mu=0, sigma=1):
    '''
    주어진 x, mu, sigma에 관한 정규 분포의 확률 값을 출력한다.
    '''
    prob = norm.pdf(x, loc=mu, scale=sigma) # 정규 분포의 확률 밀도 함수를 계산합니다.
    print(f"P(X={x}; mu={mu}, sigma={sigma}) = {prob:.2f}")

scipy 패키지의 norm과 관련해서는 공식문서(https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.norm.html)를 통해서 상세하게 알아 볼 수 있습니다.

 

설명

정규 분포란?

정규 분포는 통계학에서 가장 흔하게 사용되는 확률 분포로, 평균(Mean, μ)과 분산(Variance, σ²) 두 가지 모수를 갖습니다. 종 모양의 대칭 형태를 가지며, 데이터가 평균 근처에 많이 분포하는 특징을 갖습니다.

 

정규 분포의 두 가지 모수: 평균과 분산

  • 평균(μ): 데이터의 중심 위치를 나타냅니다.
  • 분산(σ²): 데이터가 얼마나 흩어져 있는지를 나타냅니다. 표준 편차(Standard Deviation, σ)는 분산의 제곱근으로, 분산과 함께 데이터의 흩어진 정도를 나타내는 데 사용됩니다. 표준 편차는 평균과 단위가 같기 때문에 통계학에서 더 많이 사용됩니다.

정규 분포의 중요한 특성

  • 대칭성(Symmetry): 평균을 중심으로 좌우 대칭인 종 모양(bell shape)을 가집니다.
  • 확률 밀도 함수(pdf): 복잡한 수식으로 표현되지만, 일반적으로 컴퓨터나 통계 프로그램을 이용하여 계산합니다.

표준 정규 분포란?

평균이 0이고 표준 편차가 1인 정규 분포를 **표준 정규 분포(Standard normal distribution)**라고 합니다. 표준 정규 분포는 모든 정규 분포를 변환할 수 있는 기준이 되므로, 다양한 정규 분포를 공부하는 대신 표준 정규 분포 하나만 이해하면 됩니다. 표준 정규 분포를 Z 분포라고도 합니다.

 

정규 분포의 표준화

임의의 정규 분포를 표준 정규 분포로 변환하는 과정을 **표준화(standardization)**라고 합니다. 평균이 μ이고 분산이 σ²인 정규 분포 X는 다음과 같은 과정을 통해 표준 정규 분포 Y로 변환될 수 있습니다.

  1. X ~ Normal(μ, σ²)
  2. Y = (X - μ) / σ
  3. Y ~ Normal(0, 1)

 

Z-score란?

평균을 빼고 표준 편차로 나눠준 값 Y를 Z-score라고 합니다. Z-score는 데이터가 평균으로부터 얼마나 떨어져 있는지를 표준 편차 단위로 나타냅니다.

 

표준화의 원리

평균이 3인 확률 변수에서 3을 빼면 평균이 0인 확률 분포가 되고, 표준 편차가 4인 확률 변수를 4로 나눠주면 표준 편차가 1인 확률 변수가 되는 원리를 이용합니다.

 

표준화의 일반화

E(X) = μ일 때 E(X + a) = μ + a sd(X) = √Var(X) = σ일 때 sd(X/b) = √Var(X/b) = σ/b

 

결론

정규 분포는 통계학에서 매우 중요한 개념이며, 표준화를 통해 모든 정규 분포를 표준 정규 분포로 변환하여 다룰 수 있습니다. Z-score는 데이터의 상대적인 위치를 파악하는 데 유용하게 사용됩니다.

 

추가적으로 이후에 중심극한정리에 대해서 포스팅을 해서 추가적인 설명을 붙여 놓도록 하겠습니다.