Loading...
2021. 11. 25. 22:03

Pandas 기초 5편

1. map 판다스의 series에도 각 요소에 함수를 적용시키는 map이 가능 series로 반환 위 그림은 series s1의 모든 요소에 함수 f를 적용시킨 map의 예시 모든 요소에 제곱을 수행하여 series로 반환함 series s1에 map을 수행해도 원본 s1은 그대로 있다 map을 활용하여 데이터를 교체하는 기법 map으로 dict를 넣으면 dict의 key를 index로 보고 해당 index에 value를 집어넣음 s1의 인덱스를 먼저 넣고 s2의 대응되는 인덱스의 값으로 넣는거임 df의 sex 열에 map을 활용하여 남자면 0 여자면 1을 대응시키는 one hot encoding을 수행 df.sex.unique()를 이용해 df.sex에는 male과 female밖에 없으니까 0 아니면..

2021. 11. 24. 22:57

Pandas 기초 4편

1. drop df.drop((index_number))로 index_number에 해당하는 행 제거 인덱스 리스트를 넣어 지정하는 행 제거(fancy index) axis 연산도 가능 axis=1로 해서 city와 state에 해당하는 column을 제거함 --------------------------------------------------------------------------------------------------------------------------- 2. dataframe operation index를 기준으로 연산을 수행함 겹치는 index가 없는 경우에는 NaN을 집어넣음 dataframe은 column index도 고려함 fill_value= 으로 겹치는 부분이 없는 곳이..

2021. 11. 24. 22:41

Pandas 기초 3편

1. delete column 1-1) del del df[‘debt’] 로 ‘debt’ 열을 삭제함 del은 열의 메모리 주소를 삭제함 1-2) df.drop() df.drop((열이름),axis=)으로도 삭제가 가능하다 그러나 얘는 원본을 변화시키진 않음 새로 할당시켜야함 2. column selection 1개 열을 선택할 때는 df[‘account’]로 문자열만 들어가지만 2개 이상의 열을 선택할때는 반드시 리스트가 들어가야한다 예를 들어 df[ [‘account’,’street’,’state’] ] 위 그림을 보면 1개 열을 선택하더라도 df['account']와 df[['account']] 차이가 있다 전자는 series로 가져오지만 후자는 dataframe으로 가져온다 ------------..

2021. 11. 23. 23:37

Pandas 기초 2편

1. dataframe data table 전체를 나타내는 object Series의 모임 row index 뿐만 아니라 column index도 가진다 각 column은 서로 다른 데이터 타입이 될 수 있다 기본적으로 “column_name:(data)” 형태의 dict type을 pd.DataFrame(dict,columns=[column명])에 넣어 만든다 columns=에 특정 column만 지정할 수도 있고 새로운 column을 추가할수도 있다 raw_data에서 넣고 싶지 않은 column은 지정하지 않으면 데이터프레임에 안들어간다 물론 raw_data에 data가 없는 column명을 넣을 수도 있는데 그러면 데이터프레임에 NaN 들어감 데이터프레임에서 하나의 열만 선택하는 방법으로 df[(..

2021. 11. 23. 23:11

Pandas 기초 1편

1. pandas 개요 구조화된 데이터 처리를 지원하는 파이썬계의 엑셀 numpy와 통합하여 통계분석, 인덱싱, 연산, 전처리 등 지원 import pandas as pd로 호출 2. 데이터 프레임 기본 용어 데이터의 전체 집합이 data table, sample 변수는 feature, column, attribute, field 각 행, 개별 데이터들은 instance, row, tuple 3. read_csv pd.read_csv(‘파일위치’,sep=,header=(첫줄을 데이터로 보면 False 변수로 보면 True) df.head(n=) n행만큼 데이터 출력, 기본값은 n=5 sep=’\s+’에서 \s는 single space로 빈칸을 뜻하고 +로 빈칸수가 무작위로 나올때를 뜻함. 데이터가 나눠진..