일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 시각화
- 데이터캠프
- Python
- 파이썬
- GA
- 비즈니스분석가양성과정
- stratascratch
- 태블로
- eda
- SQL
- 데이터분석가 과정
- BDA과정
- 데이터 분석을 위한 sql 레시피
- 패스트캠퍼스
- 데이터베이스
- Tableau
- 데이터분석
- for
- while
- 비즈니스 분석가
- sql문제
- 크롤링
- sql문제풀이
- 논리적사고
- 데이터분석가양성과정
- 국비지원
- SubQuery
- sql partition by
- sql with
- groupby
- Today
- Total
원시인
[3일차] BDA 과정 - 데이터 분석과 엑셀 기초 본문
[KDT] 패스트캠퍼스 비즈니스 데이터 분석가 양성과정 2일 차
데이터 분석과 엑셀기초
안녕하세요 ㅎㅎ BDA과정 3일 차 되는 날입니다.
오늘은 처음으로 패스트캠퍼스 인강을 통해 공부하는 날입니다.
두구 두구 그럼 정리 시작해보겠습니다.
데이터 분석이란
유용한 정보를 발굴하고 결론 내용을 알리며 의사결정을 지원하는 것을 목표로 데이터를 정리, 변환, 모델링하는 과정
데이터분석 과정
- 데이터 수집 - 업무상황에서 발생하는 다양한 데이터 수집
- 데이 터전 처리 - 분석 목적 및 방법에 부합하도록 데이터의 내용 , 형태 가공 (데이터 분석업무에서 가장 많은 시간을 할애하는 작업)
- 데이터 모델링 - 결과 도출을 위한 수식/함수/기능 적용
- 검증 및 평가 - 개선 효과 계산, 과거 데이터와 비교, 다양한 방법 간 비교
- 데이터 시각화 - 보고서, 대시보드 등의 회의/보고자료 작성
탐색적 데이터 분석(EDA , Exploratory Data Analysis)
기존의 통계학이 정보의 추출에서 가설 검정 등에 치우쳐 자료 본연의 의미를 찾는데 어려움이 있어 이를 보완하고자
주어진 자료만 가지고도 충분한 정보를 찾을 수 있도록 하는 여러 가지 탐색적 자료 분석 방법
EDA 중요성
- 자신이 원하는 데이터가 수집되는 경우는 거의 존재하지 않는다.
- 데이터의 분표를 파악할 수 있다.
- 분석에 필요한 데이터 전처리를 수행할 수 있다.
- 데이터의 생김새를 알아야 올바른 분석을 할 수 있다.
- 결측치, 이상치를 처리할 수 있다.
- 적합한 분석방법을 결정할 수 있다.
엑셀 기초 통계량 계산
합계 = Sum(범위)
중앙값 = Median(범위) * 자료를 크기 순서로 나열해 놓았을 때 위치적으로 중앙에 있는 값
ex 1,2,3,4,5 중앙값은 3
1,2,3,4,5,6 절대적인 중앙값이 없으므로 가장 중앙에 위치한 두 값의 평균이 중앙값이 됩니다. 즉 (3+4) / 2 = 3.5
최솟값 = Min(범위)
평균 = Average(범위)
최빈값 = Mode(범위) * 가장 많이 등장하는 값 (빈도수가 가장 높은 값)
ex 1,1,2,3,4 최빈값 1
분산 = Var(범위) * 평균에 대한 편차 제곱의 평균을 구한 값
평균을 기준으로 데이터가 흩어져 있는 정도(변동성이 크다고 해석 가능)
분산이 높으면 각 값들이 평균과 차이가 많이 나는 것을 의미
분산이 낮으면 각 값들이 평균과 비슷한 값이라는 것을 의미
표준편차 = Stdev(범위) * 분산의 제곱근 (표준편차의 제곱 = 분산)
피벗 테이블 - Raw Data를 요약하는 통계표
어떤 요약 통계표를 만들고 싶은지 명확해야지 테이블을 상황에 맞게 만들 수 있다.
엑셀 안에서 피벗테이블로 간단하게 드레그만으로 EDA 가능
Raw Data 선택 - 삽입 탭 - 피벗테이블
연도별 Superstore 지역 판매 금액
Boxplot- 최솟값, 제1 사분위수, 중앙값 , 제3 사분위수 , 최댓값을 활용해 그리는 그래프
whisker - 상자의 좌우 또는 상화로 뻗어나가 선
박스 내부의 가로선 - 중앙값
lower whisker - 최솟값(중앙값 - 1.5 * IQR 보다 큰 데이터 중 가장 작은 값)
upper whisker - 최댓값(중앙값 + 1.5*IQR 보다 작은 데이터 중 가장 큰 값)
IQR(Inter Quartile Range) - 제3 사분위수 - 제1 사분위수
이상치 - lower whisker 보다 작은 데이터 또는 upper whisker 보다 큰 데이터
산점도 - 데이터를 점으로 표현해 흩어져 있는 정도를 파악하는 그래프
데이터 전처리 - 데이터의 분석 목적과 방법에 맞게 데이터를 가공 또는 처리하는 과정( 데이터 분석 과정 60%~80%)
- 데이터 및 변수 형태 변환
- 변수 선정
- 결측치 및 이상치 처리
- 데이터 분류(카테고리)
- 데이터 분리 및 결합
- 기타 데이터 가공 및 처리
데이터 추출 엑셀 함수 활용
VLOOKUP 함수 - 공통 기준 열을 기준으로 n 번째 있는 데이터를 찾아오는 함수
=VLOOKUP(
찾을 기준 데이터, 원래 데이터의 범위, 불러 올 데이터의 열 번호, 0 or 1) 0(False) 정확히 일치, 1(True) 근사치
사용 이유 - 방대하고 다양한 데이터에서 원하는 데이터를 불어오는 게 업무의 시작이기 때문
HLOOKUP 보다 VLOOKUP이 많이 사용되는 이유는 데이터를 "열"별로 정리하기 때문
함수의 조건 - 작성 중인 표와 원래 데이터 간의 공통기준 열이 있어야 한다.
불러오고자 하는 데이터가 원래 데이터의 공통 기준열 오른쪽에 있어야 한다.
공통기준 열에 중복된 데이터가 없어야 한다.
MATCH 함수 - 찾고 싶은 값이 한 행/열에서 몇 번째에 있는지를 숫자 값으로 반환
= MATCH(찾고 싶은값 , 찾고싶은 값이 포함된 단일 열/행 범위 , 정확히 일치 or 근사치 여부)
INDEX함수 - 특정 범위에서 행 번호와 열 번호로 원하는 데이터를 불러온다.
= INDEX(범위 , 찾고 싶은 데이터의 범위 내 행번호, 찾고싶은 범위 내 열 번호)
FIND함수 - 긴텍스에서 특정 단어나 문장이 시작하는 위치를 숫자로 출력
띄어쓰기까지 포함하여 문자를 세며 대소문자를 구분
= FIND( 찾을 텍스트 , 긴 텍스트 , 문자열을 찾기 시작할 위치)
SEARCH함수 - FIND함수와 사용방법은 같으나 대소문자를 구분하지 않는다.
상관분석 - 두 변수 간에 어떤 선형적 또는 비선형적 관계를 갖고 있는지를 분석하는 방법
상관관계 - 한쪽이 증가하면 다른 쪽도 증가하거나 반대로 감소되는 경향을 인정하는 두 양 사이의 통계적 관계
두 변수가 선형 관계가 있는지 비선형 관계가 있는지 파악
엑셀의 CORREL , 데이터 탭의 데이터 분석 도구를 추가해 상관분석을 할 수 있다.
분산분석 - 두 개 이상 다수의 집단을 비교해 평균의 차이가 있는지를 검정
분산분석의 방법
집단이 2개 일시 T-test , 집단이 3개 이상일 때 ANOVA
F-검정
두 집단의 등분 산성을 검정
P-value가 0.05보다 크면 두 집단의 분산을 같고 , 0.05보다 작으면 두 집단의 분산은 다르다.
각 상황에 맞는 T-test 방법 선정을 위해 사용
P값이 0.05보다 크다면 Student's T-test 진행 (등분산 가정 두 집단)
P값이 0.05보다 작다면 Welch's T-test 진행 (이분산 가정 두 집단)
Ho(귀무가설) 일반적으로 인정되는 사실
H1(대립 가설) 귀무가설과 대립되는 가설
엑셀 분산분석
P값을 보면 0.05보다 낮게 값이 반환되므로 Covid-19 영향을 받는다고 결론을 지을 수 있다.
회귀분석 - 두 개 이상의 연속형 변수인 종속변수와 독립변수 간의 관계를 파악하는 분석
회귀분석의 평가와 해석
결정계수는 0~1 값을 가지며 1에 가까울수록 회귀모형이 실제 값을 잘 설명한다.
F값이 0.05 미만이면 이 회귀 모형이 유의미하므로 사용 가능하다.
Y=aX + b에서 Y절편은 b값을 , X1값은 a(기울기)를 뜻한다.
ex Y절편이 -4.E+07 , X1이 56081이면, 회귀모형은 Y=56081x -4.E+07
단순 회귀분석
독립변수(x)가 변할 때 , 종속변수(y) 값이 어떻게 변하는지를 가장 잘 설명해주는 직선을 찾아 분석하는 방법
최소 제곱 법(LSE, Least square Estimation)
전체적으로 오차가 작은 직선을 찾는다. (빨간 점선의 길이의 합이 가장 작은 직선, 오차의 합이 가장 작은 직선)
엑셀 단순 회귀분석
다중회귀분석
여러 개의 독립변수(x1), (x2)... 가 종속변수(y) 값에 미치는 영향 파악
다중회귀분석의 평가와 해석
조정된 결정계수 확인 0~1 값을 가지며 1에 가까울수록 회귀모형이 실제 값을 잘 설명한다.
F값이 0.05 미만이면 이 회귀 모형이 유의미하므로 사용 가능하다.
P값이 0.05 이하인 변수들이 종속 변수 y를 가장 잘 설병 하는 변수들이다.
엑셀 다중회귀 분석
시계열 데이터 분석
지수 평활법
현재의 실제 값과 현재의 예측 값을 합산하여 미래의 예측 값을 구하는 방법
비정상 시계열 데이터를 정상 시계열로 만들어 분석
단순 지수 평활법의 목표는 예측값이 실제 값을 예측할 때 가장 정확도가 높은 최적의 알파(a)를 찾는 것
FORECAST.ETS 함수
위의 함수는 지수 평활법과 ETS 방법을 통해 특정 시점의 미래 값을 예측
=FORECAST.ETS(예측할 날짜 , 알고 있는 실제값들(과거 매출 등), 과거의 날짜)
ETS(ERROR/TREND/Seasonality)
오차, 추세, 계절성을 반영해 시계열 데이터 분석
단시간에 많은 양의 정보를 습득하려 하다 보니 힘든 부분이 분명 있는 거 같습니다,
복습과 집중이 중요할 거 같습니다!!!!!
내일은 제가 데이터 분석에 있어 중요하게 생각하는 데이터를 보는 시각 즉 데이터 문해력에
대해 배우는 시간이 될 거 같은데 재밌게 배워보도록 하겠습니다.
'비즈니스 분석가 양성과정' 카테고리의 다른 글
[5일차] BDA 과정 - 엑셀 실습 특강 (0) | 2021.10.25 |
---|---|
[4일차] BDA 과정 - 빅데이터 이해하기 & 데이터 해석 트레이닝 (0) | 2021.10.22 |
[2일차] BDA 과정 - 논리적 사고와 구조적 사고 (0) | 2021.10.20 |
[1일차] BDA 과정 - 논리적 사고와 구조적 사고 (0) | 2021.10.19 |
(KDT)비즈니스 빅데이터 분석가 양성 과정 - 4개월의 여정 시작 (0) | 2021.10.18 |