Data/기초통계

비전공자를 위한 기초 통계_기술 통계

SE_TORY 2024. 3. 2. 23:46
728x90

오늘은 지난번에 배웠던 기초 통계 개념 중 기술통계에 관련된 내용을 공유하도록 하겠습니다.


기술 통계와 추론 통계의 차이점

기술 통계(Descriptive Statistics)

데이터의 간결한 요약 정보

수치적인 통계량 또는 시각화

데이터의 특징을 파악하는 관점

EDA단계에서 주요하게 사용됨

 

추론 통계(Inferential Statistics)

모집단으로부터 추출한 샘플을 사용

모집단에 대한 추론이 목적

전체 모집단을 조사할 수 없을 때 유용함

p-value를 구하는 등의 과정을 거쳐서 모집단에 대한 가설을 검정

 

대표값

자료의 특성을 나타낼 수 있는 대표성을 띠는 수치

 

기초통계량

- 중심경향성 : 데이터 분포의 중심을 보여주는 값

*중심 경향성을 나타내는 통계량*

최빈값

: 가장 빈번하게 나타나는 값

특히 범주형 자료에서 대표값으로 최빈값을 주로 사용함

중앙값

: 자료를 크기 순으로 나열했을 때 가운데 위치하는 값

순서형 자료의 대표값으로 적합한 통계량

이상치에 크게 영향을 받지 않음

평균값

(산술 평균)

: 자료이 값을 모두 더해서 자료의 수로 나눈 값

주로 연속형 자료에 사용

이상치에 영향을 크게 받을 수 있음

(가중평균)

: 자료의 중요도에 따라 가중치를 부여한 평균

(기하평균)

성장률 등 이전 시점에 대한 비율에 대한 평균을 구할 때 유용함

 

- 퍼짐정도 : 자료가 얼마나 흩어져있고 얼마나 모여져있는지에 대한 값

분산

:편차 제곱의 합을 자료의 수로 나눈 값

편차 제곱의 평균

표준편차

:분산을 제곱근한 값

범위

: 관측값에서 가장 큰 값과 가장 작은 값의 차이

최대값 - 최소값

<장점> : 계산이 쉽고 해석하기도 용이함

<단점> : 범위 내의 관측값 분포에 대한 정보를 알 수 없고, 극단치가 미치는 영향이 매우 큼

IQR

: 제 3사분위수 - 제 1사분위수

한쪽으로 치우친 분포의 퍼짐 정도를 확인할 때 주로 사용

 

- 왜도 : 분포의 좌우 비대칭성 정도

분포가 정규분포에 비해 얼마나 비대칭적인지를 나타내는 지표

왜도 = 0 : 거의 좌우 대칭임

왜도 < 0 : 우편향성 (오른쪽으로 치우침)

왜도 > 0 : 좌편향성 (왼쪽으로 치우침)

보통 왜도의 기준

-3 < 왜도 < 3 : 거의 대칭 /  정규분포와 비슷함

 

- 첨도 : 분포의 뾰족한 정도

정규분포에 비해서 평균을 중심으로 얼마나 가까이 몰려있는지 나타내는 지표

양쪽 꼬리의 두터움 정도를 나타내는 값

편차가 큰 데이터가 많을수록 커짐

이상치에 영향을 많이 받음

첨도 < 0 : 뾰족함정도가 정규분포보다 낮음

왜도 > 0 : 뾰족함정도가 정규분포보다 큼

보통 첨도의 기준

-8 < 왜도 < 8 : 정규분포와 비슷함

 

 

 

 

728x90