Pandas 기초 1편

1. pandas 개요

 

구조화된 데이터 처리를 지원하는 파이썬계의 엑셀

 

numpy와 통합하여 통계분석, 인덱싱, 연산, 전처리 등 지원

 

import pandas as pd로 호출

 

 

2. 데이터 프레임 기본 용어

 

데이터의 전체 집합이 data table, sample

 

변수는 feature, column, attribute, field

 

각 행, 개별 데이터들은 instance, row, tuple

 

그림1. 데이터 프레임의 기본 구성

 

 

3. read_csv

 

pd.read_csv(‘파일위치’,sep=,header=(첫줄을 데이터로 보면 False 변수로 보면 True)

 

df.head(n=) n행만큼 데이터 출력, 기본값은 n=5

 

그림2..pd.read_csv 예시

 

sep=’\s+’에서 \s는 single space로 빈칸을 뜻하고 +로 빈칸수가 무작위로 나올때를 뜻함. 데이터가 나눠진 빈칸 수가 다 다를때 사용

 

df_data.columns = []으로 데이터 프레임의 columns 명을 변경할 수 있음

 

그림3. column 이름 변경한 모습

 

df_data.values로 데이터 instance array를 출력

 

그림4. 데이터 프레임의 row를 array로 출력

 

 

4. series

 

데이터프레임(dataframe)은 데이터 테이블 전체를 포함하는 object

 

series는 데이터 프레임의 부분집합으로 column object이다

 

Series(data=(list,dict),index=(list))

 

index가 꼭 0,1,2,3,4, 등 순서대로 아니어도 됨

 

index는 꼭 숫자가 아님 a,b,c,d...등 문자도 가능

 

그림5. 리스트를 받아서 series로 만든 예시

 

.index로 인덱스 출력,

 

.values로 값 출력,

 

.name으로 이름 출력, 변경

 

그림6. series의 구성요소

 

indexing이 가능하고 데이터 타입 변경, value 변경도 가능

 

그림7. series 값을 변경하고 indexing을 하는 예시

 

인덱스 리스트를 기준으로 시리즈를 생성

 

인덱스를 먼저 넣고 거기에 값을 넣음

 

그러니까 인덱스 리스트가 더 길때 못들어가는 데이터가 있고 거기에 NaN이 들어간다는 거지

 

그림8. index를 먼저 만들고 value를 넣는다는 예시

 

 

'프로그래밍 > Pandas' 카테고리의 다른 글

Pandas 기초 6편  (0) 2021.11.25
Pandas 기초 5편  (0) 2021.11.25
Pandas 기초 4편  (0) 2021.11.24
Pandas 기초 3편  (0) 2021.11.24
Pandas 기초 2편  (0) 2021.11.23
TAGS.

Comments