본문 바로가기

전체 글732

pandas 판다스 기초 4 ## Creating Pandas Series (Part 1) import pandas as pd ### from DataFrame pd.read_csv('summer.csv', usecols = ['Athlete'], squeeze = True).head() # 설명은 shift + tab, tab으로 확인해보고 # squeeze 는 "하나의 열만 입력되었을 때, 시리즈를 반환한다."라는 의미다 # 하지만 이게 크게 의미가 없다고 생각하는게, 여태까지 보면 단일 컬럼은 언제나 Series였고, 다중 컬럼은 언제나 dataframe이였다. # Series 만들기인데, # 왜 만들어야하는걸까? # 보니깐 Series는 1차원적 # DataFrame은 2차원적 이라고 한다. pd.Series([10,25,6.. 2022. 7. 15.
pandas (판다스) 기초3 import pandas as pd titanic = pd.read_csv('titanic.csv') titanic # 표현에 유의 하자 age.to_frame().info() ## Analyzing Numerical Series # 결측치를 제외한 원소의 수를 세준다. age.count() # 714 # 전체길이는 891이다. age.sum(skipna = True) # 21205.17 # skipna = True 는 "결측치를 제외하고"라는 의미를 담고 있다. # 즉, 결측치를 제외한 값에 대하여 sum 을 해줘라. 가 되겠다. # 하지만 기본적으로 ()처럼 공백으로 하여도 다음과 같은 결과가 나오는 것을 보니 굳이 써줄 필요는 없을 것으로 보이기도 한다. age.sum() # 21205.17 # a.. 2022. 7. 15.
Tableau 태블루 과제 첫번째 및 후기 태블루 관련해서는 표를 만들긴했다. 분명 복습도하고, 짜임새있게 하면 더 잘 할 수있고, 95점짜리도 어렵지 않게는 만들 수 있겠는데 왠지모르게 이것에 쏟아붓는 노력이 싫었다. 왜냐하면 내가 데이터 분석을 하는 입장에서 가장 중요하다고 생각하는 것은 첫째가 "데이터를 어떻게 효용을 가지게 할 도구이면서, 비어있는 구멍을 메울 수 있을까"에 대한 시각 둘째가 "어떤 데이터가 있든 간에 그것을 첫번째 시각에 의해서 가공할 수 있는 능력" 이렇게 두가지가 사실 80%이상이라고 본다. 나는 분명 실무 해본적도 없고 이 세계를 암것도 모른다. 근데 본능적으로 알 수 있었다. 저 두가지가 가장 중요한 거라고. 근데 사실 첫번째가 나에겐 가장 어렵다. 고민하고 고민하면서 찾아보는 중이지만 아직도 잘 모르겠다. 그래서.. 2022. 7. 15.
pandas(판다스) 기초 2 import pandas as pd summer = pd.read_csv('summer.csv', index_col='Athlete') summer # 점 표기법 summer.Medal # 대괄호 표기법 # 띄어쓰기등이 추가로 가능하다는 점이 있다. summer['Medal'] # 모든 행 값에 대하여, Year, Medal 정보를 출력해라. summer.loc[:,['Year', 'Medal']] # 추후 멀티행, 멀티컬럼등을 조작할때 문제가 발생 가능하니 loc 사용을 권장한다고 한다; # 사용법은 알았고, iloc과 loc의 쓰임새등을 더 알아보자. # 보니깐 iloc은 숫자만 사용 가능하고, loc은 문자만 사용가능한것같다. # 물론 loc의 행이나, 열의 값이 0,1,2,3 이런식으로 되어있는 .. 2022. 7. 14.