본문 바로가기

전체 글732

매우중요 pandas 판다스 기초 16 문자열 가공 Cleaning Data 정말 중요하다 이번 파트는 # Cleaning Data ## First Inspection / Handing inconsistent Data ### Titanic Dataset import pandas as pd titanic = pd.read_csv('titanic_imp.csv') titanic.head() ''' SurvivedClassGenderAgeSipspParchFareEmbDeck 003male22.010$7.25SNaN 111female38.010$71.2833CC 213female26.000$7.925SNaN 311female35.010$53.1SC 403male35.000$8.05SNaN ''' titanic.info() ''' RangeIndex: 894 entries, 0 to 8.. 2022. 7. 28.
pandas 판다스 기초 15 Importing Data From Web Site 이번 챕터는 사실 원리적 측면에서는 selenium이나 BeautifulSoup를 통해서 익숙하지만 이런 구현 방식은 처음이라 흥미로웠다. 그리고 시작도 전에 importError lxml이 나면서 더욱 흥미를 돋게 해주었다. 뭐 엄청 어려운 기능이 들어간게 에러가 났다면 그러려니 하고 넘겼겠지만 그냥 암만봐도 기본중의 기본적인 기능이 에러가나서 작동을 안한다니 그냥 두고볼 수 없었다. 결과적으로는 방법을 찾았고 실행했다. # Importing Data from the Web with pd.read_html() import pandas as pd url = 'https://en.wikipedia.org/wiki/1976_Summer_Olympics_medal_table' pd.read_html(url) .. 2022. 7. 28.
Pandas importerror: lxml not found, please install it 이 에러는 간만에 굉장히 당황스러운 에러였다. 여러가지 방법을 써도 해결이 안되었기 떄문이다. 먼저 나의 컴퓨터 환경은 m1 pro mac 이다. 즉, m1 mac 에서 importerror: lxml not found, please install it 에러가 난 것이다. 그리고 내가 실행하고자 했던 명령은 이것이였다. ''' import pandas as pd url = 'https://en.wikipedia.org/wiki/1976_Summer_Olympics_medal_table' pd.read_html(url) ''' #1 첫번째 시도는 너무 당연하게도 lxml을 install 해주는 것이였다. 하지만 여전히 importerror: lxml not found, please install it 에러.. 2022. 7. 28.
22.07.27 시간이 벌써 이렇게 지났네 데이터 사이언티스트가 되겠거니 하고 이쪽의 공부를 시작한것이 21년 10월 부터니깐 거의 9개월에서 10개월은 되는것 같다. 그동안에 많은 일들이 있었다. # 1 수학 중학교 1학년 1학기 수학부터 공부하느라 처음 3개월을 보냈고 수학을 하는 와중에도 지금생각해보면 중요한개념인 도형에 대해서 생략을 하고 공부를 하고도 3개월이 걸렸다는 점이 참 아쉬웠었다. 다행히도 지금은 대체안으로 수학을 학습할 방법을 찾았지만. 확실히 동양의 문화에서는 수학을 위한 수학으로써 기계적으로 받아들여야 하는 느낌이라면, 서양은 이 부분에 있어서 더 유연한 것같다. 그 측면에 있어서 수학을 사용하는 순수수학, 응용수학 그 어느분야에서도 동양이 서양을 이기는 비율은 현저히 낮다. 다행히도 영어를 좀 할줄 아는 것이 도움이 되어.. 2022. 7. 27.