Loading...
2021. 11. 24. 22:57

Pandas 기초 4편

1. drop df.drop((index_number))로 index_number에 해당하는 행 제거 인덱스 리스트를 넣어 지정하는 행 제거(fancy index) axis 연산도 가능 axis=1로 해서 city와 state에 해당하는 column을 제거함 --------------------------------------------------------------------------------------------------------------------------- 2. dataframe operation index를 기준으로 연산을 수행함 겹치는 index가 없는 경우에는 NaN을 집어넣음 dataframe은 column index도 고려함 fill_value= 으로 겹치는 부분이 없는 곳이..

2021. 11. 24. 22:41

Pandas 기초 3편

1. delete column 1-1) del del df[‘debt’] 로 ‘debt’ 열을 삭제함 del은 열의 메모리 주소를 삭제함 1-2) df.drop() df.drop((열이름),axis=)으로도 삭제가 가능하다 그러나 얘는 원본을 변화시키진 않음 새로 할당시켜야함 2. column selection 1개 열을 선택할 때는 df[‘account’]로 문자열만 들어가지만 2개 이상의 열을 선택할때는 반드시 리스트가 들어가야한다 예를 들어 df[ [‘account’,’street’,’state’] ] 위 그림을 보면 1개 열을 선택하더라도 df['account']와 df[['account']] 차이가 있다 전자는 series로 가져오지만 후자는 dataframe으로 가져온다 ------------..

2021. 11. 23. 23:37

Pandas 기초 2편

1. dataframe data table 전체를 나타내는 object Series의 모임 row index 뿐만 아니라 column index도 가진다 각 column은 서로 다른 데이터 타입이 될 수 있다 기본적으로 “column_name:(data)” 형태의 dict type을 pd.DataFrame(dict,columns=[column명])에 넣어 만든다 columns=에 특정 column만 지정할 수도 있고 새로운 column을 추가할수도 있다 raw_data에서 넣고 싶지 않은 column은 지정하지 않으면 데이터프레임에 안들어간다 물론 raw_data에 data가 없는 column명을 넣을 수도 있는데 그러면 데이터프레임에 NaN 들어감 데이터프레임에서 하나의 열만 선택하는 방법으로 df[(..

2021. 11. 23. 23:11

Pandas 기초 1편

1. pandas 개요 구조화된 데이터 처리를 지원하는 파이썬계의 엑셀 numpy와 통합하여 통계분석, 인덱싱, 연산, 전처리 등 지원 import pandas as pd로 호출 2. 데이터 프레임 기본 용어 데이터의 전체 집합이 data table, sample 변수는 feature, column, attribute, field 각 행, 개별 데이터들은 instance, row, tuple 3. read_csv pd.read_csv(‘파일위치’,sep=,header=(첫줄을 데이터로 보면 False 변수로 보면 True) df.head(n=) n행만큼 데이터 출력, 기본값은 n=5 sep=’\s+’에서 \s는 single space로 빈칸을 뜻하고 +로 빈칸수가 무작위로 나올때를 뜻함. 데이터가 나눠진..