Codeit Sprint/Weekly_Paper

위클리 페이퍼 #1 - 사분위수, 추론통계, 기술통계

ko_sick 2024. 6. 21. 18:17

 

코드잇 데이터 애널리스트 1기 스트린트과정을 참여하면서 받게 되어지는 주간 quest이다.

Weekly Paper를 통해서 2가지를 얻어 갈 수 있는데

  • 위클리 페이퍼는 프로그래밍 언어, 데이터분석, 통계, 머신러닝 등 특정 주제에 대하여 심화 학습을 하고, 학습한 내용을 문서로 작성해 제출하는 과제입니다.
  • 특정 개념을 외우고 있는 것이 아니라 깊이 있게 이해할 수 있도록 학습하는 과정을 통해, 이후 취업 과정에서 마주할 '기술 면접'을 대비하는데에 있어서 큰 도움이 됩니다.

이러한 이유로 학습에 도움이 될 것 이라고 생각된다. 금주의 과제는 2가지 이다.

  1. 사분위수에 대해 설명해주세요.
  2. 기술통계와 추론통계는 무엇이고, 어떤 차이가 있나요.
사분위수(quartile)

 

자료를 오름차순으로 정렬하고 전체를 4등분 했을 때 단면에 위치하는 값을 뜻한다. 이는 특정 위치의 값을 통해서 전체적인 느낌을 볼 필요성이 있을때 사용한다. 이때 크기순은 적은 수 부터 큰수로 정렬한다.

 

  1. 1사분위수(Q1) : 1/4 전체에서 25%에 해당하는 지점
  2. 2사분위수(Q2) : 2/4 전체에서 50%에 해당하는 지점
  3. 3사분위수(Q3) : 3/4 전체에서 75%에 해당하는 지점
  4. 4사분위수(Q4) : 4/4 전체에서 100%에 해당하는 지점

홀수의 경우 범위의 값을 구하기 쉽지만, 전체 범위의 data 수가 짝수인 경우에는 단면 값의 평균값을 구한다.

quartile_list = [1, 2, 3, 3, 4, 4, 5, 5, 6, 6, 7, 9]

 

이와같은 짝수개의 데이터가 있는경우 list를 25%씩 자르면 [1,2,3] Q1 [3, 4, 4] Q2 [5, 5, 6] Q3 [6, 7, 9] Q4와 같이 위치하게 된다.

이때 Q1은 Q1기준 좌우값의 평균으로 3이 된다. 이를 토대로 Q2는 4.5, Q3는 6, Q4는 9에 해당한다.

 

2사분위수(Q2)가 전체의 50%에 해당하는 지점으로 집단의 중앙에 있는 지점에 존재하는 수이고, 2사분위수는 의미상으로 중앙값과 같다고 볼 수 있다.

 

4분범위 IQR(interquartile range)는 4등분에서 양쪽의 25%씩을 잘라내서 중앙의 50%(전체의 1/2)만 남기는 것이다.

이때 4분범위는 3사분위수(Q3) - 1사분위수(Q1)의 값을 뜻한다. 위의 예시로 만들어진 리스트의 4분범위 IQR은 3이 되게 된다.

 

4분위수에서 4분범위 IQR은 중앙의 50%가 얼마나 밀집되었는지에 따라 데이터의 특징에 대한 판단에 도움을 준다. 

 

 4분위수는 전체를 한번에 보는 방법이다.

 

기술통계와 추론통계
  • 기술통계(Descriptive Statistics) : 데이터를 요약하고, 데이터 집합의 주요 특성을 표현하여 이해를 하는게 목적입니다.
  • 추론통계(Inferential Statistics) : 데이터 표본을 이용하여, 모집단의에 대한 결론 도출 및 예측을 하는게 목적입니다.

기술통계와 추론통계에 대한 예시

 

기술통계(Descriptive Statistics)

기술통계는 샘플링한 데이터를 수집한 후 데이터를 그래프, 평균, 분포등에 대한 개요를 얻는게 주 목적으로 사용된다.

- Location parameter : 평균값(Mean), 중앙값(Median), 최빈값(Mode), 합계(Sum)

- Dispersion parameter : 표준편차(standard deviation), 분산(Variable), 범위(Range)

그외에 표(tables), bar, histogram, scatter, line, box, pie에 해당하는 그래프(charts)가 기술통계에 속한다고 볼 수있다.

 

추론통계(Inferential Statistics)

추론통계는 기술통계와 다르게 모집단에 대해서 설명하고자하는 목적으로 사용된다. 전체 인원에 대해서 조사하는 것은 불가함으로 표본을 이용하여 확률적으로 추정하는 방법을 사용한다. p-value, t-검정(t-test), 카이제곱 검정(Chi-square test), 선형 회귀(linear regression), 다중 선형 회귀(multiple regression), 피어슨 상관 분석(pearson correlation analysis)등이 이에 해당한다.

 

차이점

내가 공부하기에 느낀 기술통계와 추론통계의 차이점으로는 수집하거나 샘플링한 데이터를 표본사용 방법에 따른 차이라고 생각된다. 샘플링 된 데이터를 이용해 샘플링 데이터의 속성을 주안점으로 두냐, 샘플링된 데이터를 이용해 모집단을 확률적으로 추정하냐로 주안점이 다르다고 생각된다. 

 

기술 통계에서 추론된 데이터의 표본 자료를 토대로 가설검증 및 전체 모집단을 추정하는 추론통계가 뒷받침이 된다고 볼 수 있다.

 

블로그를 처음 써보기도 하고, 오랜만에 공부하는 내용이라서 틀린 부분이 있다면, 댓글 달아주시면 감사하겠습니다.

 

 

 

quantile 관련 공부자료 및 출처 : https://www.youtube.com/watch?v=wDtQHRK4HAY

기술통계와 추론통계 공부 자료 및 출처 : https://datatab.net/tutorial/descriptive-inferential-statistics