320x100
import pandas as pd
pd.options.display.float_format = '{:,.2f}'.format
pd.set_option('display.width', 85)
pd.set_option('display.max_columns',8)
landtemps = pd.read_csv('../data-cleansing-main/Chapter01/data/landtempssample.csv',
# 원본파일과 대조해봤을때, 1번째 열은 짤린다 skiprows =1 에 의해서
# 하지만 stationid 는 왜 순서가 두번째일까?
names = ['stationid', 'year', 'month', 'avgtemp', 'latitude',
'longitude', 'elevation', 'station', 'countryid', 'country'],
skiprows = 1,
parse_dates = [['month', 'year']],
low_memory = False)
type(landtemps)
landtemps.rename(columns = {'month_year':'measuredate'}, inplace=True)
landtemps.dtypes
# describe()를 통해서 요약 통계를 본다.
landtemps.avgtemp.describe()
# innull()를 통해서 각 열의 누락값을 찾는다.
landtemps.isnull().sum()
# dropna을 통해서 avgtemp에서 누락된 행을 모두 삭제시킨다.
landtemps.dropna(subset=['avgtemp'], inplace=True)
# shape을 통해서 행과, 열의 갯수를 확인한다.
landtemps.shape
# 참고사항
# 만약 대용량으로 zip파일을 읽어오고 싶다면 가능하다.
pd.read_csv('경로/파일이름.zip', compression='zip')
으로 해주면 된다.
300x250
'개발일지 > Pandas' 카테고리의 다른 글
pymssql 설치에러 해결! (0) | 2022.07.08 |
---|---|
pandas excel 가져오기 루틴 (0) | 2022.07.08 |
mac m1 Jupyter notebook 설치 방법 (0) | 2022.07.08 |
판다스(pandas) KeyError (0) | 2022.06.17 |
판다스(pandas) TypeError: 'function' object is not subscriptable (0) | 2022.06.16 |