Data/기초통계

통계적 데이터 분석을 위한 기초 통계 개념(1)

SE_TORY 2024. 2. 27. 18:36
728x90

오늘은 데이터 전처리를 엑셀로 활용하여 진행할 수 있는 방법과 통계적 데이터 분석 / 모델링을 하기 위한 기초 통계 지식에 대해 배웠습니다.

그 중에서도 기초 통계 개념은 처음 접해보는거라 강의 듣는 내내 긴장했는데요, 꼭 알아야 할 기초 통계 개념에 대해 정리해보겠습니다.


통계학

관심 또는 연구의 대상이 되는 모집단(population)으로부터 자료를 수집, 정리, 요약을 하고 표본(수집한 자료, sample) 정보로부터 자료를 추출했던 대상 전체인 모집단에 대한 최적의 의사 결정을 내릴 수 있도록 정확한 정보를 제공하는 방법론을 연구하는 학문

 

통계학은 크게 기술 통계학과 추론 통계학으로 분류된다.

 

기술 통계학(Descriptive Statistics)

요약 통계량, 그래프 표 등을 이용해 데이터를 정리, 요약하여 데이터의 전반적인 특성을 파악하는 방법

표, 그래프 등을 활용해 데이터를 시각적으로 표현하고 통계량 등으로 수치를 요약함

 

추론 통계학(Inference Statistics)

데이터가 모집단으로부터 나왔다는 가정하에 모집단으로부터 추출된 표본을 사용하여 모집단의 특성을 파악하는 방법

점 추청, 구간 추청을 하거나 가설을 검정한다.

 

모집단

아직 가지고 있지 않은 모르는 데이터를 포함한 모든 데이터 (= 관심의 대상이 되는 집단)

 

표본

모집단의 전체 데이터를 분석하기 위해 수집된 일부 데이터

 

가설(Hyphothesis) 검정

통계적 추론의 하나로서, 모집단 실제의 값이 얼마가 된다는 주장과 관련해 표본의 정보를 사용해서 가설의 합당성 여부를 판단하는 과정

 

귀무 가설(𝐻0, 영 가설)

기본적으로 참으로 추정되며 처음부터 버릴 것으로 예상하는 가설(차이가 없거나, 의미 있는 차이가 없는 경우)

 

대립 가설(𝐻1, 연구 가설)

귀무 가설에 대립하는 명제

보통 독립 변수와 종속 변수 사이에 어떤 특정한 관련이 있다는 결과가 도출된다.

귀무 가설을 기각하는 반증의 과정을 거쳐 참이라고 받아들여질 수 있음

 

귀무 가설과 반대되는 대립 가설에는 3가지 형태가 있음

 

ex) 귀무 가설 : 우리나라 남학생의 신장 평균(μ)은 170cm라는 가설의 검정

𝐻0 : μ = 170

제 1형 : 𝐻1 : μ ≠170  → 양측 검정

어떤 두 숫자의 비교에서 "같지 않다(≠)" 라는 것은 두 숫자 중 하나는 반드시 크거나 작아야 한다.따라서 크거나 작은 경우를 모두 고려해야 함 양측 검정

 

제 2형 : 𝐻1 : μ < 170  단측 검정
제 3형 : 𝐻1 : μ > 170  단측 검정

대립 가설이 어느 특정 모수 이상이거나 이하일 때 검정하는 것(크거나 작은 경우 중 하나만 고려해도 되는 경우) 단측 검정

 

p-value(유의 확률) : 가설 검정의 기준

귀무 가설이 맞다는 전제 하에, 표본에서 실제로 관측된 통계치와 같거나 더 극단적인 통계치가 관측될 확률

p-value가 0.05보다 크면 유의미한 차이가 없고, p-value가 0.05보다 작으면 유의미한 차이가 있다고 판단함

 

p-value를 사용할 때 주의사항
p-value는 관계나 집단들 사이에 차이가 생겨나는 것이 우연한 것인지, 변수에 의한 것인지 여부를 밝히는 것
하지만 이것이 효과나 변화의 정도, 관계의 강도나 크기 등을 설명하는 것은 아님

 

t-test

두 집단(또는 한 집단의 전/후)의 평균에 통계적으로 유의미한 차이가 있는지를 검정

적합한 t-test 방법을 선택하기 위한 F-검정 필요

 

F-검정

두 집단의 분산에 통계적으로 유의미한 차이가 있는지를 검정

P-value가 0.05보다 크면 두 집단의 분산에 유의미한 차이가 없고, 0.05보다 작으면 두 집단의 분산에 유의미한 차이가 있다

→ 유의미한 차이가 없는 경우 : 등분산 가정 t-test 활용

→ 유의미한 차이가 있는 경우 : 이분산 가정 t-test 활용

 

f-검정의 귀무 가설
두 집단의 분산에 유의미한 차이가 없다. (p > 유의수준)
f-검정의 대립 가설
두 집단의 분산에 유의미한 차이가 있다. (p < 유의수준)

 

*엑셀에서 데이터 분석 기능을 활용함*유의수준 : 의미가 있는지 없는지를 판단할 수 있는 기준

 

728x90