Loading...
2021. 11. 25. 23:22

Pandas 기초 6편

1. describe() numeric type을 요약해줌 문자형 데이터는 알아서 요약을 안해줌 2. unique() (series).unique() 해당 series의 중복을 제거하고 유일한 값들을 반환 3. 기본 수학 연산 sum,mean,min,max,count,var,median 등 기본 연산 지원 axis 가능 4. isnull() df.isnull()은 NaN인 곳을 찾아 True 아니면 False로 df.isnull().sum() 각 변수별 NaN의 개수를 구할 때 자주 씀 5. sort_values() df.sort_values( (by=)[열],ascending=) 지정된 열 기준으로 sorting 6. corr(),cov() .corr() 두 열간 상관계수 .cov() 두 열간 공분산 ..

2021. 11. 25. 22:03

Pandas 기초 5편

1. map 판다스의 series에도 각 요소에 함수를 적용시키는 map이 가능 series로 반환 위 그림은 series s1의 모든 요소에 함수 f를 적용시킨 map의 예시 모든 요소에 제곱을 수행하여 series로 반환함 series s1에 map을 수행해도 원본 s1은 그대로 있다 map을 활용하여 데이터를 교체하는 기법 map으로 dict를 넣으면 dict의 key를 index로 보고 해당 index에 value를 집어넣음 s1의 인덱스를 먼저 넣고 s2의 대응되는 인덱스의 값으로 넣는거임 df의 sex 열에 map을 활용하여 남자면 0 여자면 1을 대응시키는 one hot encoding을 수행 df.sex.unique()를 이용해 df.sex에는 male과 female밖에 없으니까 0 아니면..

2021. 11. 23. 23:37

Pandas 기초 2편

1. dataframe data table 전체를 나타내는 object Series의 모임 row index 뿐만 아니라 column index도 가진다 각 column은 서로 다른 데이터 타입이 될 수 있다 기본적으로 “column_name:(data)” 형태의 dict type을 pd.DataFrame(dict,columns=[column명])에 넣어 만든다 columns=에 특정 column만 지정할 수도 있고 새로운 column을 추가할수도 있다 raw_data에서 넣고 싶지 않은 column은 지정하지 않으면 데이터프레임에 안들어간다 물론 raw_data에 data가 없는 column명을 넣을 수도 있는데 그러면 데이터프레임에 NaN 들어감 데이터프레임에서 하나의 열만 선택하는 방법으로 df[(..

2021. 11. 23. 23:11

Pandas 기초 1편

1. pandas 개요 구조화된 데이터 처리를 지원하는 파이썬계의 엑셀 numpy와 통합하여 통계분석, 인덱싱, 연산, 전처리 등 지원 import pandas as pd로 호출 2. 데이터 프레임 기본 용어 데이터의 전체 집합이 data table, sample 변수는 feature, column, attribute, field 각 행, 개별 데이터들은 instance, row, tuple 3. read_csv pd.read_csv(‘파일위치’,sep=,header=(첫줄을 데이터로 보면 False 변수로 보면 True) df.head(n=) n행만큼 데이터 출력, 기본값은 n=5 sep=’\s+’에서 \s는 single space로 빈칸을 뜻하고 +로 빈칸수가 무작위로 나올때를 뜻함. 데이터가 나눠진..