일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 데이터캠프
- while
- sql문제
- sql partition by
- groupby
- 파이썬
- sql with
- 크롤링
- SQL
- sql문제풀이
- Python
- for
- 비즈니스 분석가
- SubQuery
- eda
- 패스트캠퍼스
- Tableau
- 비즈니스분석가양성과정
- 데이터 분석을 위한 sql 레시피
- 시각화
- 국비지원
- BDA과정
- stratascratch
- 데이터분석
- 데이터베이스
- 데이터분석가양성과정
- 논리적사고
- 데이터분석가 과정
- GA
- 태블로
- Today
- Total
목록가짜연구소/Data Scientist with Python (9)
원시인
원하 ㅎㅎ 판다스 데이터프레임에 대한 인덱스 설정과 리셋 방법에 대해 배워보겠습니다. 먼저 들어가기에 앞서 인덱스가 왜 중요한가? 라는 질문을 던져보면 답은 아래와 같습니다. 하위 집합 코드를 더 깨끗하게 만들 수 있기 때문인데요. 그럼 시작하겠습니다 ㅎㅎ import numpy as np import pandas as pd set_index() - index 지정 sample.set_index("Country").head(3) Ship Mode Segment City State Postal Code Region Category Sub-Category Sales Quantity Discount Profit Country United States Second Class Consumer Henderson K..
원하 ㅎㅎ drop_duplicates , value_counts , groupby 함수들에 대해 배워봤습니다. import numpy as np import pandas as pd bike = pd.read_csv("Desktop/bike.csv") bike.head(3) datetime season holiday workingday weather temp atemp humidity windspeed casual registered count 0 2011-01-01 00:00:00 1 0 0 1 9.84 14.395 81 0.0 3 13 16 1 2011-01-01 01:00:00 1 0 0 1 9.02 13.635 80 0.0 8 32 40 2 2011-01-01 02:00:00 1 0 0 1 9.0..
원하 ㅎㅎ 데이터를 EDA(Exploratory Data Analysis)하는 과정에서 사용하는 요약통계 함수를에 대하여 공부하였습니다. 간단한 함수들이지만 유용하게 사용할 수 있을거라 생각이 드네요. import numpy as np import pandas as pd sp = pd.read_csv ( "Desktop/SampleSuperstore.csv") sp.head(3) Ship Mode Segment Country City State Postal Code Region Category Sub-Category Sales Quantity Discount Profit 0 Second Class Consumer United States Henderson Kentucky 42420 South Furnit..

안녕하세요ㅎㅎ 오늘은 판다스를 이용한 데이터 변환에 대해서 알아보겠습니다. Pandas는 데이터 조작을 위한 Python 패키지 Pandas는 두 가지 필수 Python 패키지인 Numpy 및 Matplotlib 위에 빌드됩니다. Numpy는 Pandas가 사용하는 간편한 데이터조작을 위해 다차원 배열 객채를 제공 데이터를 저장하고 Matplotlib 에는 Pandas 가 활용하는 강력한 데이터 시각화 기능이 있습니다. Pandas 데이터프레임은 tabula(표형식)로 돼있고 여네의 모든 값은 모두 동일한 데이터 유형, 각 열에는 다른 데이터 타입이 가능합니다. Transforming DataFrames import numpy as np import pandas as pd import matplotlib..
안녕하세요 원시인 입니다 ㅎㅎ 데이터분석에 있어서 빠질 수 없는 것이 시각화인데요. 파이썬 시각화 툴 중에서 Matplotlib에 대해서 정리해봤습니다. Matplotlib matplotlib은 2차원 그래픽 패키지이다. Matlab과 같이 커맨드 방식(matplotlib에서는 Pyplot API라고 한다)으로 그래프를 그릴 수 있으며, 커맨드 함수의 이름도 유사도록 설계되어 있다. Matplotlib 특징 파이썬의 대표적인 과학 계산용 그래프 라이브러리 선 그래프, 히스토그램, 산점도 등의 고품질 그래프 제공 저수준 api를 사용한 다양한 시각화 기능 제공 다양한 운영체제와 그래픽 백엔드에서 동작 import numpy as np import pandas as pd import matplotlib.py..
안녕하세요 원시인 입니다 ㅎㅎ Python에서 벡터, 행렬 등 수치 연산을 수행하는 라이브러리인 NumPy(넘파이)에 대해서 정리해봤습니다. NumPy 특징 Numerical Python의 약자 고성능 과학 계산용 패키지로 강력한 N차원 배열 객체 범용적 데이터 처리에 사용 가능한 다차원 컨테이너 정교한 브로드캐스팅(broadcasting) 기능 파이썬의 자료형 list와 비슷하지만, 더 빠르고 메모리를 효율적으로 관리 반복문 없이 데이터 배열에 대한 처리를 지원하여 빠르고 편리 데이터 과학 도구에 대한 생태계의 핵심을 이루고 있음 import numpy as np 배열 생성 리스트로 배열 만들기 arr = np.array([1,2,3]) arr arr.shape # (3,) 3개의 요소 , 1차원 (3..