Data/Excel

머신러닝 개념 & 엑셀을 통한 데이터 시각화

SE_TORY 2024. 2. 29. 10:46
728x90

오늘은 어제 배웠던 통계 개념에 이어서 머신러닝에 대한 간단한 개념들과 엑셀을 통해 데이터를 시각화할 수 있는 방법에 대해 공유해보겠습니다.


머신러닝(기계 학습, Machine Learning)

 

경험과 학습을 통해 자동으로 개선하는 컴퓨터 알고리즘의 연구이며 인공지능의 한 분야.

컴퓨터가 어떤 작업(T, task)을 하는데 있어서 경험(E, experience)으로부터 학습하여 성능(P, performance)을 향상시키는 학문

 

학습 방법에 따라 지도 학습(Supervised Learning), 비지도 학습(Unsupervised Learning), 강화 학습(Reinforcement Learning)으로 구분됨

 

지도 학습 (Supervised Learning)

지도 학습은 정답(Y)이 있는 데이터를 활용해 데이터를 학습하고, 학습한 모델이 얼마나 정답을 정확하게 맞추는지 평가하는 학습 분류, 회귀 문제들을 해결할 수 있음

 

지도 학습의 종류

  • Regression : 연속형 수치의 입력 값을 활용해 특정 수치를 예측하는 지도 학습 (ex. 다음 해 매출액 / 기온 / 주가 예측)
  • Classification : 주어진 입력 값을 2개 혹은 여러 개의 결과값으로 분류하는 지도 학습 (ex. 스팸 메일 여부 판단 등) 

비지도 학습(Unsupervised Learning)

비지도 학습은 정답(Y)이 없는 데이터를 활용해 데이터를 학습

데이터가 어떻게 구성되어 있는지, 혹은 어떻게 분류될 수 있는지에 대한 문제 해결

강화 학습(Reinforcement Learning)

에이전트(학습 시스템)가 취한 행동에 대해 보상 또는 벌점을 주어 가장 큰 보상을 받는 방향으로 유도하는 방법

가장 큰 보상을 얻기 위해 에이전트가 해야 할 행동을 선택하는 방법을 정의하게 되는데 이를 '정책'이라고 함

 

데이터 시각화

 

데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달되는 과정

 

데이터 시각화가 중요한 이유

  • 의사 결정자가 데이터 간의 관계를 식별하고 숨겨진 패턴이나 추세를 감지할 수 있도록 데이터에 시각적 형태를 부여
  • 데이터 시각화는 비즈니스 인텔리전스를 개선하고 데이터 중심 의사 결정 및 전략적 계획 수립을 지원하는 이야기를 만드는 스토리텔링

데이터 시각화의 구성 요소

스토리(Story)
스토리는 데이터 시각화의 목적을 나타내며, 데이터 사이언티스트는 데이터 분석을 통해 달성해야 하는 목표에 대해 다양한 이해관계자와 의견을 나누어야 함.


데이터(Data)
데이터의 스토리를 설명하는 데 도움이 되는 적절한 데이터 세트를 식별해야함
기존 데이터 형식의 수정, 데이터 정리이상값 제거 등의 작업 후 필요 시 추가 분석 수행 →데이터 준비 완료 후 다양한 시각적 탐색 방법 계획


시각적 객체(Visual Objects)
새로운 인사이트를 공유하는 데 가장 적합한 시각화 방법을 선택
주요 데이터 포인트를 강조 표시하고 복잡한 데이터 세트를 단순화하는 차트와 그래프생성
데이터 사용자를 위해 데이터를 체계적으로 제시하는 효율적인 방법 제고

 

 

엑셀을 활용한 데이터 시각화

콤보형 차트

2개 이상의 정보를 표현하는 콤보형 차트

 

데이터 범위 선택 → [막대형 차트]삽입 → 그래프의 막대 선택 → 마우스 오른쪽 클릭 → [계열 차트 종류 변경]

차트를 변경할 계열의 차트 변경 → 필요한 경우 [보조 축] 선택

출처: https://coronaboard.kr/

 

거품형 차트

숫자의 크리나 비율을 거품으로 나타내는 차트

거품의 위치와 거품의 크기, 거품의 색 등을 활용해 정보를 표현

 

*먼저 빈 차트를 생성 후 [데이터 선택]에서 데이터를 입력하는 것이 효율적

 

폭포형 차트

데이터의 증가, 감소분 만큼을 막대 그래프로 표현

*폭포형 차트는 엑셀 2016 버전 이상에서 사용 가능

 

증감 데이터 범위를 선택 → 폭포형 차트 생성

 

조건부 서식

특정한 조건 규칙을 만족하는 데이터에만 자동으로 서식이 적용되도록 하는 기능

 

셀 값을 기준으로 모든 셀의 서식 지정

선택한 범위의 모든 셀에 특정한 조건에 의한 조건부 서식 적용 가능

왼쪽부터 각각 2가지 색조, 데이터 막대, 아이콘 집합

 

다음을 포함하는 셀만 서식 지정

선택한 범위에서 특정 조건을 만족하는 데이터에만 서식 적용

 

상위 또는 하위 값만 서식 지정

상위 10개(%) 또는 하위 10개(%)에 해당하는 데이터에만 서식 적용

 

평균보다 크거나 작은 값만 서식 지정

선택한 데이터의 평균보다 크거나 작은 데이터에만 서식 적용

 

고유 또는 중복 값만 서식 지정

고유(1개만 있는)하거나 중복(2개 이상)된 데이터에만 서식 적용

 

수식을 사용하여 서식을 지정한 셀 결정

임의의 수식의 결과가 참(TRUE)이 되게 하는 데이터에만 서식 적용

 

Interactive Dashboard

슬라이서 버튼을 누르면 자동으로 데이터가 변경되는 상호작용 대시보드

728x90