공부/파이썬을 통한 기초통계학

확률 질량 함수(Probability Mass Function, PDF) 확률 밀도 함수(Probability Density Function)

ko_sick 2025. 2. 13. 13:25

😂 PMF, PDF
확률 분포에 대해서 알아보고, 파이썬을 통해서 간단한 예제 문제를 풀도록 하겠습니다.
파이썬 문제는 https://wikidocs.net/165585를 참고했습니다.

문제

파이썬으로 연속형 확률 분포의 하나인 연속 균등 분포를 구현해보세요.

베이스라인의 code here 을 채우세요.

베이스라인

def pdf_unif(x, a=0, b=1):
    '''
    주어진 a, b, x에 관한 균등 분포의 확률 값을 출력한다.
    '''
    if # code here
        prob = # code here
    else:
        prob = # code here
    print("P(X=%s; a=%s, b=%s) = %.2f"%(x, a, b, prob))

Input

Copypdf_unif(x=0.5)

pdf_unif(x=0, a=-1, b=2)

pdf_unif(x=2.5, a=0, b=3.5)

Output

P(X=0.5; a=0, b=1) = 0.50

P(X=0; a=-1, b=2) = 0.33

P(X=2.5; a=0, b=3.5) = 0.71

 

베이스라인(정답 - 스포주의)

더보기
def pdf_unif_integral(x, a=0, b=1):
    '''
    주어진 a, b, x에 관한 균등 분포의 확률 값을 적분을 통해 계산하여 출력한다.
    '''
    # b에 1을 해주는 이유는 무한대로 가는 것을 막기 위해서 이다.
    prob = (x - a) / (b - a) if a <= x <= b else 0 
    print("P(0 < X < %.2f; a=%.2f, b=%.2f) = %.2f" % (x, a, b, prob))

# 예시 실행
pdf_unif_integral(x=0.5)
pdf_unif_integral(x=0, a=-1, b=2)
pdf_unif_integral(x=2.5, a=0, b=3.5)

 

내용 정리

1. 확률 함수란?

  • 확률 함수는 확률 변수의 특정 값에 대한 확률을 나타내는 함수입니다.
  • 확률 변수가 이산형인지 연속형인지에 따라 확률 질량 함수(pmf) 또는 확률 밀도 함수(pdf)를 사용합니다.

2. 확률 질량 함수 (pmf)

  • 이산형 확률 변수에 대한 확률 함수입니다.
  • 각 값에 대한 확률을 명확하게 나타냅니다.
  • 확률 값의 합은 항상 1입니다.

3. 확률 밀도 함수 (pdf)

  • 연속형 확률 변수에 대한 확률 함수입니다.
  • 특정 값에서의 확률 밀도를 나타내며, 확률은 특정 구간의 면적으로 계산합니다.
  • 확률 밀도 함수의 값은 1보다 클 수 있습니다.

4. 이산형 확률 분포와 연속형 확률 분포

구분 이산형 확률 분포 연속형 확률 분포
확률 변수 값 단절된 값(0, 1, 2 등) 연속적인 값(0과 1사이의 모든 실수)
확률 함수 확률 질량 함수(pmf) 확률 밀도 함수(pdf)
예시 성별, 학년, 인원수 키, 재생 시간, 강우량
확률 계산 각 값에 대한 확률 합산 특정 구간의 면적 계산(적분 사용)

 

5. 확률 값 계산 방법

  • 이산형 확률 분포: 각 값에 대한 확률을 구하여 모두 더합니다.
  • 연속형 확률 분포: 특정 구간의 면적을 구하기 위해 적분을 사용합니다.

6. 참고

  • 확률 밀도 함수의 값은 확률을 나타내는 것이 아니라 확률 밀도를 나타냅니다.
  • 확률은 확률 밀도 함수와 구간을 이용하여 계산합니다.

이산형 확률 분포와 연속형 확률 분포 계산 예시

이산형에 대한 확률은 계산방법은 각 $X$에 대한 확률 값을 구한 뒤에 모두 더하는 방법을 통해서 계산을 할 수 있습니다. 공정한 정육면체의 주사위의 경우에 주사위 눈이 3과 6이 나오는 확률은 다음과 같습니다.

 

$$P(X = 3 or 6) = P(X = 3) + P(X = 6) = \frac{1}{6} + \frac{1}{6} = \frac{1}{3}$$

 

하지만 연속형의 경우에는 이전 포스팅(https://ko-sick.tistory.com/26)에서 언급했다 싶이 각 점에 대한 확률의 의미가 아닌 해당 부분의 면적이 의미를 가지기 때문에. 해당 확률 변수의 확률 값을 구하기 위해서는 적분을 통해서 면적을 구하는 방법으로 값을 구해야 합니다. 예를 들어 강우량이 a와 b 사이에서, 0에서 1사이로 균등하게 분포할 때, 이를 연속 균등 분포로 나타낼 수 있습니다. 하지만 강우량이 정확하게 0.50000.... 일 가능성은 거의 불가(0에 수렴)하기 때문에, 강우량이 0.49 ~ 0.51 사이일 확률을 구하는 방법을 통해서 값을 구한다고 이해하면 될 것 같습니다. 연속 균등 분포를 푸는 수식으로는

 

$$P(0 < X < 0.5; a=0, b=1) = \int_{0}^{0.5}\frac{1}{b-1}dx = \int_{0}^{0.5}1dx = 0.5$$

 

그리고 위키독스를 통해서 IBSP를 공부하는 도중에 해당 부분에 대해서 언급해주신 부분이 있어서 가져왔습니다.
*여담으로, 확률 밀도 함수의 약자가 pdf라고 말씀드렸는데요. 확률 분포 함수(Probability Distribution Function) 역시 줄이면 같은 약자가 됩니다. 흔히 확률 밀도 함수의 약자는 소문자인 pdf로 많이 쓰고, 확률 분포함수의 약자는 대문자인 PDF로 많이 사용되는 것 같습니다. 항상 그런 것은 아니니, 두 용어의 약어가 동일하는 것에 유의하시길 바랍니다.