Data/기초통계

통계적 데이터 분석을 위한 기초 통계 개념(2)

SE_TORY 2024. 2. 28. 19:15
728x90

오늘은 패스트캠퍼스 데이터분석 부트캠프의 엑셀강의 마지막 날입니다.

지난번에 이어서 통계적 데이터 분석을 위한 기초통계 개념을 마저 공유하고, 다음 포스팅에서 머신러닝과 데이터 시각화에 대해서 다뤄보도록 하겠습니다!


회귀 분석

 

개념

두 개 이상의 연속형 변수(수치)인 종속 변수와 독립 변수 간의 관계를 파악하는 분석

y = ax + b

y : 종속 변수 (우리가 알고 싶은 값)

x : 독립 변수 (우리가 알고 있는 값)

 

목적

두 변수 간의 관계를 파악해 우리가 알고 싶은 값을 예측하는 것

 

종류

회귀 모형의 모양에 따라 선형 회귀 분석비선형 회귀 분석으로, 독립 변수(x)의 개수에 따라 단순 회귀 분석다중 회귀 분석으로 구분

 

단순 선형 회귀 분석

독립 변수(x)가 변할 때, 종속 변수(y) 값이 어떻게 변하는지를 가장 잘 설명해주는 직선을 찾아 그 직선이 x와 y의 관계를 얼마나 설명하고 있는지 분석하는 방법

→ y와 x사이의 1차 방정식 구하기

 

*실제값과 예측값 사이의 오차가 가장 작은 직선 찾기

* 오차 = 실제값 - 예측값

 

단순 선형 회귀 분석의 평가와 해석

→ 결정 계수 / F값 / Y절편 및 X1의 계수 확인

  • 결정 계수는 0 ~1값을 가지며 1에 가까울수록 회귀 모형이 실제 값을 잘 설명함 (ex. 결정계수가 0.937이면 이 회귀모형이 실제 데이터 93.7%를 설명할 수 있다는 뜻)
  • F값이 0.05 미만이면 이 회귀 모형이 유의미하므로 사용 가능함
  • y = ax + b 에서 Y절편은 b값을, x1값은 a를 뜻함

다중 선형 회귀 분석

독립 변수가 x1, x2 ... 등으로 2개 이상일 때 독립 변수들과 종속 변수 간의 관계를 파악하는 분석

 

단순 선형 회귀 분석의 평가와 해석

→ 조정된 결정 계수 /  F값 / Y절편 및 각 독립 변수의 p-value와 계수 확인

  • 조정된 결정 계수는 0~1 값을 가지며 1에 가까울수록 회귀 모형이 실제 값을 잘 설명함
  • F값이 0.05 미만이면 이 회귀 모형이 유의미하므로 사용 가능함
  • P값이 0.05보다 작은 변수들이 종속 변수 y에 영향을 미칠 것으로 기대되는 변수들

 

시계열 데이터 분석

 

시계열 데이터 : 시간의 흐름에 따라 정리한 데이터

시계열 데이터 분석 : 시간의 흐름에 따라 발생된 데이터를 분석하는 기법

 

시계열 데이터의 유형

정상성을 가지고 있는 정상 시계열 데이터와 정상성을 가지고 있지 않은 비정상 시계열 데이터로 구분

*정상성 : 추세나 계절성을 가지고 있지 않으며, 관측된 시간에 무관한 성질

 

 

비정상 시계열 데이터의 정상 시계열 데이터화

: 대부분의 시계열 데이터는 비정상 시계열 데이터인데, 비정상 시계열 데이터인 상태로는 분석이 어렵기 때문에 차분이나 다른 방법을 활용해 비정상 시계열 데이터를 정상 시계열 데이터로 변환해 분석하기도 함

 

지수 평활법(Exponential Smoothing)

현재 시점에 가까운 시계열 자료에 큰 가중치를 주고, 과거 시계열 데이터일수록 작은 가중치를 주어 미래 시계열 데이터를 예측하는 기법

 

단순 지수 평활법(Single Exponential Smoothing)

미래의 예측 값 = 과거의 실제 값 X α + 과거의 예측 값 X (1 - α)

* α : 실제값을 반영할 가중치(0~1 사이의 값)

 

FORECAST.ETS

엑셀에서 사용할 수 있는 지수 평활법 관련 예측 함수

비교적 뚜렷한 계절성이 있는 데이터 예측에 사용할 수 있는 함수

 

= FORECAST.ETS(target_date, values, timeline, [계절성주기], [누락데이터처리], [중복시계열처리])

→ target_date : 예측할 날짜

→ values : 알고 있는 실제 값들

timeline : 과거의 날짜들

계절성 주기

인수가 2보다 클 경우 : 해당 주기로 데이터를 예측

인수가 0일 경우 : 주기가 없다고 가정하고 선형 예측

인수가 1이거나 비어있을 경우 : 엑셀에서 자동으로 계절성을 예측

누락데이터처리

인수가 1 또는 비어있을 경우 : 누락된 데이터를 주변 데이터의 평균으로 계산

인수가 0일 경우 : 누락된 데이터를 0으로 계산

중복시계열처리

1 또는 빈칸 : 평균으로 반영 (보통 평균을 많이 사용함)

728x90