Pandas 기초 1편

1. pandas 개요

구조화된 데이터 처리를 지원하는 파이썬계의 엑셀

numpy와 통합하여 통계분석, 인덱싱, 연산, 전처리 등 지원

import pandas as pd로 호출

데이터의 전체 집합이 data table, sample

변수는 feature, column, attribute, field

각 행, 개별 데이터들은 instance, row, tuple

pd.read_csv(‘파일위치’,sep=,header=(첫줄을 데이터로 보면 False 변수로 보면 True)

df.head(n=) n행만큼 데이터 출력, 기본값은 n=5

sep=’\s+’에서 \s는 single space로 빈칸을 뜻하고 +로 빈칸수가 무작위로 나올때를 뜻함. 데이터가 나눠진 빈칸 수가 다 다를때 사용

df_data.columns = []으로 데이터 프레임의 columns 명을 변경할 수 있음

df_data.values로 데이터 instance array를 출력

데이터프레임(dataframe)은 데이터 테이블 전체를 포함하는 object

series는 데이터 프레임의 부분집합으로 column object이다

Series(data=(list,dict),index=(list))

index가 꼭 0,1,2,3,4, 등 순서대로 아니어도 됨

index는 꼭 숫자가 아님 a,b,c,d...등 문자도 가능

.index로 인덱스 출력,

.values로 값 출력,

.name으로 이름 출력, 변경

indexing이 가능하고 데이터 타입 변경, value 변경도 가능

인덱스 리스트를 기준으로 시리즈를 생성

인덱스를 먼저 넣고 거기에 값을 넣음

그러니까 인덱스 리스트가 더 길때 못들어가는 데이터가 있고 거기에 NaN이 들어간다는 거지

728x90