오늘은 지난 강의에서 배웠던 기초 통계 개념에 대해 공유하려고 합니다. 온라인 강의를 통해 데이터 분석을 하기 위해 이해해야 할 기초 통게 개념에 대해 배웠습니다. 고등학교 통계 개념에도 포함되는 내용들이니 참고 부탁드려요 :)
변량
자료의 수치, 데이터 값을 의미하는 용어
계급
변량을 일정한 간격으로 나눈 구간
계급을 정할 때 변량의 최소, 최대를 고려해야 함
도수
각 계급에 속하는 변량의 개수
상대 도수
각 계급에 속하는 변량의 비율
도수분포표
주어진 자료를 계급에 따라 나눔
각 계급에 속하는 도수를 조사
<장점> : 구간별 분포를 한눈에 알아보기 좋음
<단점> : 각 변량의 정확한 값을 생략함
히스토그램
피벗 차트와 비슷한 형태
도수분포표를 시각화해서 보는 가장 기본적인 방법
평균(mean)
산술 평균
변량의 합을 변량의 수로 나눈 값
분산(variance)
변량이 중심(평균)에서 얼마나 떨어져있는지를 보기 위한 통계량
* 편차(deviation) : 변량에서 평균을 뺀 값
분산 = 편차를 제곱해서 더한 값분산이 크면 많이 흩어져있기에 중심에서 넓게 퍼져있는 그래프
분산이 작으면 평균에 몰려있어서 중심에 뾰족하게 몰려있는 그래프
표준편차(standard deviation)
분산의 제곱근
관찰값들이 얼마나 흩어져 있는지를 하나의 수치로 나타내는 통계량
관측된 변량의 스케일을 표준화할 수 있는 좋은 수단
확률 변수
일정한 확률을 갖고 일어나는 사건에 수치가 부여된 것
사건마다 부여된 확률 값을 변수로 나타낸 것
확률 분포
확률 변수에서 정의된 사건에 대한 확률의 분포를 함수로 나타낸 것
*자료의 종류*
1. 범주형 자료 : 자료의 범위가 몇개의 범주로 한정될 수 있는 경우
ex) 혈액형(A, B, O, AB) / 차량 종류(소형, 중형, 대형)
- 명목형 자료 : 자료 간의 순서가 없음 (ex. 혈액형)
- 순서형 자료 : 자료 간의 순서가 있음 (ex. 차량종류(소<중<대), 만족도조사(1<2<3<4<5), 학력(초 → 중 → 고 → 대학))
2. 양적 자료 : 수치적으로 표현가능한 자료
- 이산형 자료 : 몇개의 다른 값만 가진 자료 (ex. 동전 10개 던졌을 때 앞면이 나올 횟수)
- 연속형 자료 : 연속적인 값을 가지는 자료 (ex. 키(171, 171.3, 182.5 ...))
3. 구간형 자료 : 값을 비교하는 것은 의마가 있으나, 비율이나 절대적인 값은 의미가 없는 자료 (ex. 기온, 연도)
4. 비율형 자료 : 값을 비교하는 것도 의마가 있고 비율이나 절대적인 값도 의미가 있는 자료 (ex. 키, 몸무게)
확률분포표
확률변수의 값에 대해 확률을 표로 표시한 것
이산형 자료의 확률 분포를 표현하기에 적합한 방식
확률 밀도 함수
확률 변수의 분포를 나타내는 함수
주로 연속형 확률 분포를 표현할 때 사용
정규분포
평균 μ와 표준편차 σ에 대해 아래의 확률밀도함수를 가지는 분포
종모양의 형태를 띔
중심극한정리
독립적인 확률변수들의 평균은 항상 정규분포에 가까워진다
수학적인 방법을 통해 증명됨
표준 정규 분포
정규분포 중에서 평균이 0이고 표준편차가 1인 정규분포
표준화
다양한 형태의 정규 분포를 표준 정규 분포로 변환하는 방법
표준 정규 분포에 대한 값을 이용해 원래 분포의 확률을 구할 수 있음
<표준화의 중요성> : 다양한 데이터를 균일한 기준으로 비교할 수 있음
모집단
조사 대상이 되는 전체 집합
모수
모집단에 대한 요약된 수치
값에 대한 평균이나 비율 등
표본
모집단을 대표하는 모집단의 일부
통계량
표본에 대한 수치적 요약
통계량을 바탕으로 모수를 추정하는 것이 추론통계라고 할 수 있음
모평균
모집단의 평균
표본 평균
모집단의 일부인 표본에 대한 평균
모분산
모집단의 분산
표본분산
모집단의 일부인 표본에 대한 평균
신뢰도
값이 알맞은 모평균이라고 믿을 수 있는 정도
95%, 99% 를 주로 사용
신뢰구간
모평균의 추정 구간
신뢰도에 따라, 표본의 수에 따라 정해짐
'Data > 기초통계' 카테고리의 다른 글
비전공자를 위한 기초 통계_기술 통계 (0) | 2024.03.02 |
---|---|
통계적 데이터 분석을 위한 기초 통계 개념(2) (4) | 2024.02.28 |
통계적 데이터 분석을 위한 기초 통계 개념(1) (2) | 2024.02.27 |