본문 바로가기

개발일지/Pandas50

매우중요 pandas 판다스 기초 17 결측값(NaN), 중복값(duplicated) 활용 아...... 이번 챕터는 호흡이 진짜 조오오오올라게 길다...... 뭔가 지쳤다. ㅋㅋㅋㅋㅋㅋㅋㅋ 그래도 분명 유의미한 배움들은 있었다. 대표적으로 1. 결측값(NaN)의 활용 2. 중복값(duplicated)의 활용 이었다. # Intro to NA Values import pandas as pd import numpy as np sales = pd.read_csv('sales.csv', index_col = 0) sales.head() ''' MonTueWedThuFri Steven342715NaN33 Mike4597487.012 Andi1733548.029 Paul87672745.07 ''' sales.info() ''' Index: 4 entries, Steven to Paul Data colu.. 2022. 7. 29.
pandas 판다스 문자열 가공 혼자서 해보기 ### 일단은 titanic raw 데이터 정리!! import pandas as pd titanic = pd.read_csv('titanic_imp.csv') titanic.Survived.unique() # array(['0', '1', 'yes', 'no'], dtype=object) 여기서부터 to_csv로 정리된걸 안쏴줬구나.. 라는것을 깨닫고 처음부터 다시 시작했다. titanic.Survived.replace(['yes', 'no'], [1,0], inplace = True) titanic.Survived.unique() # array(['0', '1', 1, 0], dtype=object) titanic.Survived = titanic.Survived.astype(int) titanic... 2022. 7. 28.
매우중요 pandas 판다스 기초 16 문자열 가공 Cleaning Data 정말 중요하다 이번 파트는 # Cleaning Data ## First Inspection / Handing inconsistent Data ### Titanic Dataset import pandas as pd titanic = pd.read_csv('titanic_imp.csv') titanic.head() ''' SurvivedClassGenderAgeSipspParchFareEmbDeck 003male22.010$7.25SNaN 111female38.010$71.2833CC 213female26.000$7.925SNaN 311female35.010$53.1SC 403male35.000$8.05SNaN ''' titanic.info() ''' RangeIndex: 894 entries, 0 to 8.. 2022. 7. 28.
pandas 판다스 기초 15 Importing Data From Web Site 이번 챕터는 사실 원리적 측면에서는 selenium이나 BeautifulSoup를 통해서 익숙하지만 이런 구현 방식은 처음이라 흥미로웠다. 그리고 시작도 전에 importError lxml이 나면서 더욱 흥미를 돋게 해주었다. 뭐 엄청 어려운 기능이 들어간게 에러가 났다면 그러려니 하고 넘겼겠지만 그냥 암만봐도 기본중의 기본적인 기능이 에러가나서 작동을 안한다니 그냥 두고볼 수 없었다. 결과적으로는 방법을 찾았고 실행했다. # Importing Data from the Web with pd.read_html() import pandas as pd url = 'https://en.wikipedia.org/wiki/1976_Summer_Olympics_medal_table' pd.read_html(url) .. 2022. 7. 28.