본문 바로가기

Pandas37

pandas (판다스) 기초 7 filtering # DataFrame Basics II ## Filtering DataFrames with one Condition import pandas as pd titanic = pd.read_csv('titanic.csv') titanic.head() # 이 연산은 백터 연산이 된 것이므로, 반복문이 필요 없다. titanic.sex == 'male' ''' 0 True 1 False 2 False 3 False 4 True ... 886 True 887 False 888 False 889 True 890 True Name: sex, Length: 891, dtype: bool ''' # 이 방법은 numpy 와 같은 방법으로써 titanic.sex에서 male 에 속한 값만을 필터링해서 리턴하는 것이다. # .. 2022. 7. 18.
pandas 판다스 기초 6 # reset_index()의 기능의 근본은 # 'index_col자리에 index 기준값이 된 것을 해제해준다.'라는 개념같다. # 즉, index_col을 설정해주기 전의 모습으로 돌아가는 것이다.​ # Pandas Index Objects ## First Steps import pandas as pd summer = pd.read_csv('summer.csv', index_col = 'Athlete') summer.tail() summer.index[0] # 'HAJOS, Alfred' # 모든 인덱스가 고유값인지 판단할 때 쓰이는 함수 (중복되지 않은 인덱스인지 확인) summer.index.is_unique # False summer.index.get_loc('DRIVAS, Dimitrios').. 2022. 7. 16.
pandas 판다스 기초 4 ## Creating Pandas Series (Part 1) import pandas as pd ### from DataFrame pd.read_csv('summer.csv', usecols = ['Athlete'], squeeze = True).head() # 설명은 shift + tab, tab으로 확인해보고 # squeeze 는 "하나의 열만 입력되었을 때, 시리즈를 반환한다."라는 의미다 # 하지만 이게 크게 의미가 없다고 생각하는게, 여태까지 보면 단일 컬럼은 언제나 Series였고, 다중 컬럼은 언제나 dataframe이였다. # Series 만들기인데, # 왜 만들어야하는걸까? # 보니깐 Series는 1차원적 # DataFrame은 2차원적 이라고 한다. pd.Series([10,25,6.. 2022. 7. 15.
pandas (판다스) 기초3 import pandas as pd titanic = pd.read_csv('titanic.csv') titanic # 표현에 유의 하자 age.to_frame().info() ## Analyzing Numerical Series # 결측치를 제외한 원소의 수를 세준다. age.count() # 714 # 전체길이는 891이다. age.sum(skipna = True) # 21205.17 # skipna = True 는 "결측치를 제외하고"라는 의미를 담고 있다. # 즉, 결측치를 제외한 값에 대하여 sum 을 해줘라. 가 되겠다. # 하지만 기본적으로 ()처럼 공백으로 하여도 다음과 같은 결과가 나오는 것을 보니 굳이 써줄 필요는 없을 것으로 보이기도 한다. age.sum() # 21205.17 # a.. 2022. 7. 15.