본문 바로가기

분류 전체보기718

pandas 판다스 rank, unique, nunique, count, 평균, 표준편차(mean, std), 상관계수 corr ## Sorting DataFrame (Version 1.0 Updte) import pandas as pd titanic = pd.read_csv('titanic.csv') titanic.age.sort_values() ''' 803 0.42 755 0.67 644 0.75 469 0.75 78 0.83 ... 859 NaN 863 NaN 868 NaN 878 NaN 888 NaN Name: age, Length: 891, dtype: float64 ''' titanic.sort_values(by = 'age') ''' survivedpclasssexagesibspparchfareembarkeddeck 80313male0.42018.5167CNaN 75512male0.671114.5000SNaN 644.. 2022. 7. 23.
Tableau 태블루 맵차트, 지역필터 태블루로 맵차트, 지역 필터를 사용하여 대시보드에 표현했다. https://public.tableau.com/shared/NBNF5Y7JM?:display_count=n&:origin=viz_share_link 챕터2-4/맵차트/도구 설명 활용/지역필터대시보드 챕터2-4/맵차트/도구 설명 활용/지역필터대시보드 public.tableau.com 태블루 정말 유용한 툴이라고 생각한다. 하지만 지금 공부하고 싶진 않다. 연계성이 떨어지는데다가 내가봤을때 데이터 엔지니어의 메인 스킬셋은 아니기 때문이다. 휴... 안타깝지만 해야할게 너무 많다. 그리고 태블루는 표현하는게 다소 직관적이진 않아도 나름대로 타 툴에 비해서는 편의성이 엄청나다. 그렇지만 단점이 있으니.. 저장할때 자꾸 로딩에러가 걸린다... 진짜 5.. 2022. 7. 23.
제로베이스 데이터 사이언스 과정 중 결심 (방향 확립) 오늘은 고민이 참 많은 하루였다. 그래서 어제 새벽 4시에 잤다. 계속 잡 포지션 관련 자료를 찾아보느라. 일단 나온 결론은 확실했다. '데이터 사이언티스트 포지션을 먼저 가지지 말자' 그 이유는 간단했다. 나는 내 역량 이상의 포지션을 맡아본 경험이 있다. 해낼수야 있었지만 워드프레스를 사용하는 회사에서 그것도 기획서를 종이, 혹은 엑셀로 뼈대만 전달해왔던 나에게 어도비 xd로 작업하라는 것이였다. 시각적으로 분명하게 알아볼 수 있도록. 음.. 나는 디자인에 굉장히 취약하다 어릴때부터 이건 좀 노력의 영역이 아니기도 싶을정도로. 아무튼, 그때의 회사는 나의 태도를 너무 좋게 봐주셔서 나의 부족한 부분을 음.. 일을 끝마친걸 뭐라고 하더라? 퇴근 아 맞어 퇴근 퇴근후에 학원을 보내서라도 교육시켜서 함께하.. 2022. 7. 22.
Python 라이브러리를 통해 오피넷 데이터 스크래핑 후 엑셀저장 그러고보면 이번 데이터를 수집하는거 자체만으로, 이전에는 넘사벽이였던 것같던데 가능해진게 믿기질 않는다. 미리 말하자면 데이터에 결측치는 있는것같다. 3번 반복문 돌려봤는데, 1,2개정도는 길이값에서 차이가 나더라. 그리고 이번 데이터 수집을 통해서도 스스로의 과제를 발견했다. 1. 결측치 없이 데이터 스크래핑이 가능한가? 2. 보다 반복문을 간결하게 만들기 위해서 내가 원하는 전체 데이터를 감싸고 있는 태그를 추출하고, 그것을 활용하는 방법을 익히자. 특히!! selenium 영역의 메인태그 설정 후 서브 태그로 이어지는 건 뭔가 작동이 안되더라; 기능은 있을거고 내가 방법을 모르는 것일테니 이부분을 중점적으로 공부해보자. # Oil Data from selenium import webdriver fr.. 2022. 7. 21.