Loading...
2021. 11. 25. 23:22

Pandas 기초 6편

1. describe() numeric type을 요약해줌 문자형 데이터는 알아서 요약을 안해줌 2. unique() (series).unique() 해당 series의 중복을 제거하고 유일한 값들을 반환 3. 기본 수학 연산 sum,mean,min,max,count,var,median 등 기본 연산 지원 axis 가능 4. isnull() df.isnull()은 NaN인 곳을 찾아 True 아니면 False로 df.isnull().sum() 각 변수별 NaN의 개수를 구할 때 자주 씀 5. sort_values() df.sort_values( (by=)[열],ascending=) 지정된 열 기준으로 sorting 6. corr(),cov() .corr() 두 열간 상관계수 .cov() 두 열간 공분산 ..

2021. 11. 25. 22:03

Pandas 기초 5편

1. map 판다스의 series에도 각 요소에 함수를 적용시키는 map이 가능 series로 반환 위 그림은 series s1의 모든 요소에 함수 f를 적용시킨 map의 예시 모든 요소에 제곱을 수행하여 series로 반환함 series s1에 map을 수행해도 원본 s1은 그대로 있다 map을 활용하여 데이터를 교체하는 기법 map으로 dict를 넣으면 dict의 key를 index로 보고 해당 index에 value를 집어넣음 s1의 인덱스를 먼저 넣고 s2의 대응되는 인덱스의 값으로 넣는거임 df의 sex 열에 map을 활용하여 남자면 0 여자면 1을 대응시키는 one hot encoding을 수행 df.sex.unique()를 이용해 df.sex에는 male과 female밖에 없으니까 0 아니면..

2021. 11. 24. 22:57

Pandas 기초 4편

1. drop df.drop((index_number))로 index_number에 해당하는 행 제거 인덱스 리스트를 넣어 지정하는 행 제거(fancy index) axis 연산도 가능 axis=1로 해서 city와 state에 해당하는 column을 제거함 --------------------------------------------------------------------------------------------------------------------------- 2. dataframe operation index를 기준으로 연산을 수행함 겹치는 index가 없는 경우에는 NaN을 집어넣음 dataframe은 column index도 고려함 fill_value= 으로 겹치는 부분이 없는 곳이..

2021. 11. 24. 22:41

Pandas 기초 3편

1. delete column 1-1) del del df[‘debt’] 로 ‘debt’ 열을 삭제함 del은 열의 메모리 주소를 삭제함 1-2) df.drop() df.drop((열이름),axis=)으로도 삭제가 가능하다 그러나 얘는 원본을 변화시키진 않음 새로 할당시켜야함 2. column selection 1개 열을 선택할 때는 df[‘account’]로 문자열만 들어가지만 2개 이상의 열을 선택할때는 반드시 리스트가 들어가야한다 예를 들어 df[ [‘account’,’street’,’state’] ] 위 그림을 보면 1개 열을 선택하더라도 df['account']와 df[['account']] 차이가 있다 전자는 series로 가져오지만 후자는 dataframe으로 가져온다 ------------..