Data/Excel

엑셀을 활용한 탐색적 데이터 분석(EDA)

SE_TORY 2024. 2. 26. 19:37
728x90

오늘은 지난주에 배웠던 엑셀을 활용한 탐색적 데이터 분석에 대해 공유하려고 합니다.


탐색적 데이터 분석(EDA, Exploratory Data Analysis)
기존 통계학이 정보의 추출 과정에서 가설 검정 등에 치우쳐 자료가 가지고 있는 본연의 의미를 찾는데 어려움이 있어 이를 보완하고자 주어진 자료만 가지고도 충분한 정보를 찾을 수 있도록 하는 자료 분석 방법

 

엑셀 데이터 분석 도구를 활용한 기초 통계량 계산

 

데이터 분석 도구는 기본적으로 엑셀에 활성화 되어있는 기능이 아닙니다.

설정이 기본값인 경우, 아래 경로로 들어가 분석 도구 팩을 선택합니다.

[파일] → 더보기 → [옵션] → 추가 기능 → 이동 

추가 완료하면 데이터 탭에 들어가 기능이 활성화 되었는지 확인해줍니다.

 

해당 기능을 통해 다양한 통계적 데이터 분석 기법을 사용할 수 있는데,

그 중 기초 통계량 계산을 위해서는 기술 통계법을 활용합니다.

 

입력 범위 : 기초 통계량을 계산할 데이터 범위 선택

데이터의 첫째 행 이름표 사용

출력범위 : 기존 시트에 결과를 출력할 경우 출력할 셀 선택

요약 통계량 체크

선택한 데이터 범위에 대한 기초 통계량 결과가 나옴

  • 표준 오차 : 표본들의 평균의 전체 평균과 떨어져 있는 정도
  • 중앙값 : 데이터를 순서대로 정렬했을 때 위치적으로 가장 중앙에 있는 값
  • 최빈값 : 가장 많이 반복되는 데이터
  • 표준 편차 : 평균과 각 데이터들의 편차를 나타냄 (분산의 제곱근 = 분산에 루트를 씌운 값)
  • 분산 : 데이터가 평균을 기준으로 얼마나 분산되어 있는지를 의미(분산이 크면 데이터가 많이 분산되어있음)
  • 첨도 : 데이터 분포의 뾰족한 정도 (값이 3이면 정규분포, 3보다 크면 납작한 분포, 3보다 작으면 뾰족한 분포)
  • 왜도 : 데이터 분포가 치우쳐 있는 정도

 

피벗 테이블을 활용한 EDA

 

피벗 테이블(Pivot Table) : 엑셀에서 커다란 표의 데이터를 요약하는 통계표

[피벗 테이블 필드]의 필드를 필터/열/행/값 중 필요한 부분에 드래그함

 

 

결측치(Missing Value)
데이터에 값이 없는 것

이상치(Outlier)
특정 지정된 그룹에 분류되지 못하는 값으로, 정상군의 상한과 하한의 범위를 벗어나 있거나 패턴에서 벗어난 수치

 

데이터 분석을 하다보면 결측치와 이상치가 생겨나고, 상황에 따라 이를 처리 방법을 결정해야 합니다.

 

결측치와 이상치 탐색

 

결측치는 데이터에 값이 없는 것으로 NA / NaN / Null / 빈칸 으로 나타나는데, 주로 엑셀에서는 빈칸으로 많이 보임

  • NA : Not Available (유효하지 않은)
  • NaN : Not a Number (숫자가 아닌)
  • Null : 아무것도 존재하지 않음을 의미
  • 빈칸 : 데이터가 입력되지 않음

Z-Score : 자료가 평균으로부터 표준편차의 몇 배만큼 떨어져 있는지를 나타내는 지표

▷양의 Z-Score는 자료 값이 평균보다 높음을 의미

▷음의 Z-Score는 자료 값이 평규노다 낮음을 의미

▷0에 가까운 Z-Score는 자료 값이 평균과 비슷함을 의미

Z-Score가 3 이상이거나 -3 이하면 일반적으로 이상치로 판단

(이 기준은 관습적인 지침이므로 절대적인 기준이 아님)

 

IQR(Inter Quartile Range) : 1사분위수와 3사분위수 간의 거리

= 3사분위수 - 1사분위수

* 사분위수 : 데이터를 4등분하는 값

 

IQR을 활용한 이상치 범위

1사분위수 부터 -1.5 X IQR 보다 작거나, 3사분위수 부터 1.5 X IQR 보다 큰 값

 

Box Plot (상자 도표)

5개의 수치적 자료를 활용해 데이터의 분포와 범위를 표현한 그래프

*엑셀 2016 버전에서만 사용 가능 (상자 수염 차트 활용)

 

 

상관분석과 산점도

 

상관 분석 : 두 변수가 어떤 선형적 관계를 갖고 있는지를 분석하는 방법

상관 관계 : 한쪽이 증가하면 다른 쪽도 증가하거나 감소되는 경향을 인정하는 두 양 사이의 통계적 관계

→ 상관 계수를 통해 파악

* 상관 계수가 1에 가까울수록 양의 상관 관계(정비례), -1에 가까울수록 음의 상관 관계(반비례)

 

상관 계수표 : 분석 대상 변수들의 상관 관계를 한눈에 보여주는 표

(엑셀의 데이터 분석 기능에서 사용 가능)

 

EDA에서 상관 분석의 역할

: 인과 관계가 있을 것으로 예상되는 변수들을 선별해 분석의 우선순위를 정할 수 있음

 

유의해야 할 점

인과 관계를 가지고 있는 두 변수는 항상 강한 상관 관계를 가지고 있지만, 강한 상관 관계를 가지고 있다고 해서 두 변수가 반드시 인과 관계를 가지고 있는 것은 아님

→ 상관 관계가 높은 변수들을 중심으로 실험을 통해 인과 관계를 경험적으로 입증해야 함

 

산점도 : 데이터를 점으로 표현해 흩어져 있는 정도를 파악하는 그래프

(엑셀의 분산형 차트 활용)

 

728x90