본문 바로가기
개발일지/임시카테고리

pandas로 데이터 가져오기 루틴 1 (csv파일 읽기)

by 다니엘의 개발 이야기 2022. 7. 8.
320x100
import pandas as pd
pd.options.display.float_format = '{:,.2f}'.format
pd.set_option('display.width', 85)
pd.set_option('display.max_columns',8)

 

landtemps = pd.read_csv('../data-cleansing-main/Chapter01/data/landtempssample.csv',
                        # 원본파일과 대조해봤을때, 1번째 열은 짤린다 skiprows =1 에 의해서
                        # 하지만 stationid 는 왜 순서가 두번째일까?
                       names = ['stationid', 'year', 'month', 'avgtemp', 'latitude',
                               'longitude', 'elevation', 'station', 'countryid', 'country'],
                       skiprows = 1,
                       parse_dates = [['month', 'year']],
                       low_memory = False)

type(landtemps)

 

landtemps.rename(columns = {'month_year':'measuredate'}, inplace=True)
landtemps.dtypes

 

# describe()를 통해서 요약 통계를 본다.
landtemps.avgtemp.describe()

 

# innull()를 통해서 각 열의 누락값을 찾는다.
landtemps.isnull().sum()

 

# dropna을 통해서 avgtemp에서 누락된 행을 모두 삭제시킨다.
landtemps.dropna(subset=['avgtemp'], inplace=True)
# shape을 통해서 행과, 열의 갯수를 확인한다.
landtemps.shape

 

# 참고사항
# 만약 대용량으로 zip파일을 읽어오고 싶다면 가능하다.
pd.read_csv('경로/파일이름.zip', compression='zip')
으로 해주면 된다.
300x250