분류 전체보기718 pandas 판다스 기초 5 summer = pd.read_csv('summer.csv', index_col='Athlete') event = summer.Event event.head() # na_position='last'의 의미는 앞에서 어떻게 ascending 이 되든 관계없이 가장 마지막에 결측치 값을 넣는다는 의미다. sales.sort_values(ascending=False, na_position='last', inplace=True) titanic = pd.read_csv('titanic.csv') titanic.head(3) age = titanic.age age ''' 0 22.0 1 38.0 2 26.0 3 35.0 4 35.0 ... 886 27.0 887 19.0 888 NaN 889 26.0 890 32... 2022. 7. 15. pandas 판다스 기초 4 ## Creating Pandas Series (Part 1) import pandas as pd ### from DataFrame pd.read_csv('summer.csv', usecols = ['Athlete'], squeeze = True).head() # 설명은 shift + tab, tab으로 확인해보고 # squeeze 는 "하나의 열만 입력되었을 때, 시리즈를 반환한다."라는 의미다 # 하지만 이게 크게 의미가 없다고 생각하는게, 여태까지 보면 단일 컬럼은 언제나 Series였고, 다중 컬럼은 언제나 dataframe이였다. # Series 만들기인데, # 왜 만들어야하는걸까? # 보니깐 Series는 1차원적 # DataFrame은 2차원적 이라고 한다. pd.Series([10,25,6.. 2022. 7. 15. pandas (판다스) 기초3 import pandas as pd titanic = pd.read_csv('titanic.csv') titanic # 표현에 유의 하자 age.to_frame().info() ## Analyzing Numerical Series # 결측치를 제외한 원소의 수를 세준다. age.count() # 714 # 전체길이는 891이다. age.sum(skipna = True) # 21205.17 # skipna = True 는 "결측치를 제외하고"라는 의미를 담고 있다. # 즉, 결측치를 제외한 값에 대하여 sum 을 해줘라. 가 되겠다. # 하지만 기본적으로 ()처럼 공백으로 하여도 다음과 같은 결과가 나오는 것을 보니 굳이 써줄 필요는 없을 것으로 보이기도 한다. age.sum() # 21205.17 # a.. 2022. 7. 15. Tableau 태블루 과제 첫번째 및 후기 태블루 관련해서는 표를 만들긴했다. 분명 복습도하고, 짜임새있게 하면 더 잘 할 수있고, 95점짜리도 어렵지 않게는 만들 수 있겠는데 왠지모르게 이것에 쏟아붓는 노력이 싫었다. 왜냐하면 내가 데이터 분석을 하는 입장에서 가장 중요하다고 생각하는 것은 첫째가 "데이터를 어떻게 효용을 가지게 할 도구이면서, 비어있는 구멍을 메울 수 있을까"에 대한 시각 둘째가 "어떤 데이터가 있든 간에 그것을 첫번째 시각에 의해서 가공할 수 있는 능력" 이렇게 두가지가 사실 80%이상이라고 본다. 나는 분명 실무 해본적도 없고 이 세계를 암것도 모른다. 근데 본능적으로 알 수 있었다. 저 두가지가 가장 중요한 거라고. 근데 사실 첫번째가 나에겐 가장 어렵다. 고민하고 고민하면서 찾아보는 중이지만 아직도 잘 모르겠다. 그래서.. 2022. 7. 15. 이전 1 ··· 105 106 107 108 109 110 111 ··· 180 다음