pandas로 데이터 가져오기 루틴 1 (csv파일 읽기)

import pandas as pd
pd.options.display.float_format = '{:,.2f}'.format
pd.set_option('display.width', 85)
pd.set_option('display.max_columns',8)

landtemps = pd.read_csv('../data-cleansing-main/Chapter01/data/landtempssample.csv',
                        # 원본파일과 대조해봤을때, 1번째 열은 짤린다 skiprows =1 에 의해서
                        # 하지만 stationid 는 왜 순서가 두번째일까?
                       names = ['stationid', 'year', 'month', 'avgtemp', 'latitude',
                               'longitude', 'elevation', 'station', 'countryid', 'country'],
                       skiprows = 1,
                       parse_dates = [['month', 'year']],
                       low_memory = False)

type(landtemps)

landtemps.rename(columns = {'month_year':'measuredate'}, inplace=True)
landtemps.dtypes

# describe()를 통해서 요약 통계를 본다.
landtemps.avgtemp.describe()

# innull()를 통해서 각 열의 누락값을 찾는다.
landtemps.isnull().sum()

# dropna을 통해서 avgtemp에서 누락된 행을 모두 삭제시킨다.
landtemps.dropna(subset=['avgtemp'], inplace=True)
# shape을 통해서 행과, 열의 갯수를 확인한다.
landtemps.shape

# 참고사항
# 만약 대용량으로 zip파일을 읽어오고 싶다면 가능하다.
pd.read_csv('경로/파일이름.zip', compression='zip')
으로 해주면 된다.

'개발일지 > 임시카테고리' 카테고리의 다른 글

pymssql 설치에러 해결! (0)	2022.07.08
pandas excel 가져오기 루틴 (0)	2022.07.08
mac m1 Jupyter notebook 설치 방법 (0)	2022.07.08
GIT 기본 루틴 3 (0)	2022.07.07
GIT fatal: bad config line 11 in file /Users/.gitconfig 에러 (0)	2022.07.07

다니엘의 개발 이야기

pandas로 데이터 가져오기 루틴 1 (csv파일 읽기)

'개발일지 > 임시카테고리' 카테고리의 다른 글

티스토리툴바

pandas로 데이터 가져오기 루틴 1 (csv파일 읽기)

'개발일지 > 임시카테고리' 카테고리의 다른 글

관련글

티스토리툴바