😂 PMF, PDF
확률 분포에 대해서 알아보고, 파이썬을 통해서 간단한 예제 문제를 풀도록 하겠습니다.
파이썬 문제는 https://wikidocs.net/165585를 참고했습니다.
문제
파이썬으로 연속형 확률 분포의 하나인 연속 균등 분포를 구현해보세요.
베이스라인의 code here 을 채우세요.
베이스라인
def pdf_unif(x, a=0, b=1):
'''
주어진 a, b, x에 관한 균등 분포의 확률 값을 출력한다.
'''
if # code here
prob = # code here
else:
prob = # code here
print("P(X=%s; a=%s, b=%s) = %.2f"%(x, a, b, prob))
Input
Copypdf_unif(x=0.5)
pdf_unif(x=0, a=-1, b=2)
pdf_unif(x=2.5, a=0, b=3.5)
Output
P(X=0.5; a=0, b=1) = 0.50
P(X=0; a=-1, b=2) = 0.33
P(X=2.5; a=0, b=3.5) = 0.71
베이스라인(정답 - 스포주의)
def pdf_unif_integral(x, a=0, b=1):
'''
주어진 a, b, x에 관한 균등 분포의 확률 값을 적분을 통해 계산하여 출력한다.
'''
# b에 1을 해주는 이유는 무한대로 가는 것을 막기 위해서 이다.
prob = (x - a) / (b - a) if a <= x <= b else 0
print("P(0 < X < %.2f; a=%.2f, b=%.2f) = %.2f" % (x, a, b, prob))
# 예시 실행
pdf_unif_integral(x=0.5)
pdf_unif_integral(x=0, a=-1, b=2)
pdf_unif_integral(x=2.5, a=0, b=3.5)
내용 정리
1. 확률 함수란?
- 확률 함수는 확률 변수의 특정 값에 대한 확률을 나타내는 함수입니다.
- 확률 변수가 이산형인지 연속형인지에 따라 확률 질량 함수(pmf) 또는 확률 밀도 함수(pdf)를 사용합니다.
2. 확률 질량 함수 (pmf)
- 이산형 확률 변수에 대한 확률 함수입니다.
- 각 값에 대한 확률을 명확하게 나타냅니다.
- 확률 값의 합은 항상 1입니다.
3. 확률 밀도 함수 (pdf)
- 연속형 확률 변수에 대한 확률 함수입니다.
- 특정 값에서의 확률 밀도를 나타내며, 확률은 특정 구간의 면적으로 계산합니다.
- 확률 밀도 함수의 값은 1보다 클 수 있습니다.
4. 이산형 확률 분포와 연속형 확률 분포
구분 | 이산형 확률 분포 | 연속형 확률 분포 |
확률 변수 값 | 단절된 값(0, 1, 2 등) | 연속적인 값(0과 1사이의 모든 실수) |
확률 함수 | 확률 질량 함수(pmf) | 확률 밀도 함수(pdf) |
예시 | 성별, 학년, 인원수 | 키, 재생 시간, 강우량 |
확률 계산 | 각 값에 대한 확률 합산 | 특정 구간의 면적 계산(적분 사용) |
5. 확률 값 계산 방법
- 이산형 확률 분포: 각 값에 대한 확률을 구하여 모두 더합니다.
- 연속형 확률 분포: 특정 구간의 면적을 구하기 위해 적분을 사용합니다.
6. 참고
- 확률 밀도 함수의 값은 확률을 나타내는 것이 아니라 확률 밀도를 나타냅니다.
- 확률은 확률 밀도 함수와 구간을 이용하여 계산합니다.
이산형 확률 분포와 연속형 확률 분포 계산 예시
이산형에 대한 확률은 계산방법은 각 $X$에 대한 확률 값을 구한 뒤에 모두 더하는 방법을 통해서 계산을 할 수 있습니다. 공정한 정육면체의 주사위의 경우에 주사위 눈이 3과 6이 나오는 확률은 다음과 같습니다.
$$P(X = 3 or 6) = P(X = 3) + P(X = 6) = \frac{1}{6} + \frac{1}{6} = \frac{1}{3}$$
하지만 연속형의 경우에는 이전 포스팅(https://ko-sick.tistory.com/26)에서 언급했다 싶이 각 점에 대한 확률의 의미가 아닌 해당 부분의 면적이 의미를 가지기 때문에. 해당 확률 변수의 확률 값을 구하기 위해서는 적분을 통해서 면적을 구하는 방법으로 값을 구해야 합니다. 예를 들어 강우량이 a와 b 사이에서, 0에서 1사이로 균등하게 분포할 때, 이를 연속 균등 분포로 나타낼 수 있습니다. 하지만 강우량이 정확하게 0.50000.... 일 가능성은 거의 불가(0에 수렴)하기 때문에, 강우량이 0.49 ~ 0.51 사이일 확률을 구하는 방법을 통해서 값을 구한다고 이해하면 될 것 같습니다. 연속 균등 분포를 푸는 수식으로는
$$P(0 < X < 0.5; a=0, b=1) = \int_{0}^{0.5}\frac{1}{b-1}dx = \int_{0}^{0.5}1dx = 0.5$$
그리고 위키독스를 통해서 IBSP를 공부하는 도중에 해당 부분에 대해서 언급해주신 부분이 있어서 가져왔습니다.
*여담으로, 확률 밀도 함수의 약자가 pdf라고 말씀드렸는데요. 확률 분포 함수(Probability Distribution Function) 역시 줄이면 같은 약자가 됩니다. 흔히 확률 밀도 함수의 약자는 소문자인 pdf로 많이 쓰고, 확률 분포함수의 약자는 대문자인 PDF로 많이 사용되는 것 같습니다. 항상 그런 것은 아니니, 두 용어의 약어가 동일하는 것에 유의하시길 바랍니다.
'공부 > 파이썬을 통한 기초통계학' 카테고리의 다른 글
Poisson Distribution, 포아송 분포 (0) | 2025.02.20 |
---|---|
Binomial distribution, 이항 분포 (0) | 2025.02.19 |
Normal distribution, 정규 분포 (0) | 2025.02.18 |
Probability Distribution, 확률 분포 (0) | 2025.02.11 |
Probability, 확률 (0) | 2025.02.10 |