본문 바로가기

Pandas37

매우중요 pandas 판다스 기초 17 결측값(NaN), 중복값(duplicated) 활용 아...... 이번 챕터는 호흡이 진짜 조오오오올라게 길다...... 뭔가 지쳤다. ㅋㅋㅋㅋㅋㅋㅋㅋ 그래도 분명 유의미한 배움들은 있었다. 대표적으로 1. 결측값(NaN)의 활용 2. 중복값(duplicated)의 활용 이었다. # Intro to NA Values import pandas as pd import numpy as np sales = pd.read_csv('sales.csv', index_col = 0) sales.head() ''' MonTueWedThuFri Steven342715NaN33 Mike4597487.012 Andi1733548.029 Paul87672745.07 ''' sales.info() ''' Index: 4 entries, Steven to Paul Data colu.. 2022. 7. 29.
매우중요 pandas 판다스 기초 16 문자열 가공 Cleaning Data 정말 중요하다 이번 파트는 # Cleaning Data ## First Inspection / Handing inconsistent Data ### Titanic Dataset import pandas as pd titanic = pd.read_csv('titanic_imp.csv') titanic.head() ''' SurvivedClassGenderAgeSipspParchFareEmbDeck 003male22.010$7.25SNaN 111female38.010$71.2833CC 213female26.000$7.925SNaN 311female35.010$53.1SC 403male35.000$8.05SNaN ''' titanic.info() ''' RangeIndex: 894 entries, 0 to 8.. 2022. 7. 28.
pandas 판다스 기초 15 Importing Data From Web Site 이번 챕터는 사실 원리적 측면에서는 selenium이나 BeautifulSoup를 통해서 익숙하지만 이런 구현 방식은 처음이라 흥미로웠다. 그리고 시작도 전에 importError lxml이 나면서 더욱 흥미를 돋게 해주었다. 뭐 엄청 어려운 기능이 들어간게 에러가 났다면 그러려니 하고 넘겼겠지만 그냥 암만봐도 기본중의 기본적인 기능이 에러가나서 작동을 안한다니 그냥 두고볼 수 없었다. 결과적으로는 방법을 찾았고 실행했다. # Importing Data from the Web with pd.read_html() import pandas as pd url = 'https://en.wikipedia.org/wiki/1976_Summer_Olympics_medal_table' pd.read_html(url) .. 2022. 7. 28.
Pandas importerror: lxml not found, please install it 이 에러는 간만에 굉장히 당황스러운 에러였다. 여러가지 방법을 써도 해결이 안되었기 떄문이다. 먼저 나의 컴퓨터 환경은 m1 pro mac 이다. 즉, m1 mac 에서 importerror: lxml not found, please install it 에러가 난 것이다. 그리고 내가 실행하고자 했던 명령은 이것이였다. ''' import pandas as pd url = 'https://en.wikipedia.org/wiki/1976_Summer_Olympics_medal_table' pd.read_html(url) ''' #1 첫번째 시도는 너무 당연하게도 lxml을 install 해주는 것이였다. 하지만 여전히 importerror: lxml not found, please install it 에러.. 2022. 7. 28.