Pandas 기초 1편

1. pandas 개요

 

구조화된 데이터 처리를 지원하는 파이썬계의 엑셀

 

numpy와 통합하여 통계분석, 인덱싱, 연산, 전처리 등 지원

 

import pandas as pd로 호출

 

 

2. 데이터 프레임 기본 용어

 

데이터의 전체 집합이 data table, sample

 

변수는 feature, column, attribute, field

 

각 행, 개별 데이터들은 instance, row, tuple

 

etc-image-0
그림1. 데이터 프레임의 기본 구성

 

 

3. read_csv

 

pd.read_csv(‘파일위치’,sep=,header=(첫줄을 데이터로 보면 False 변수로 보면 True)

 

df.head(n=) n행만큼 데이터 출력, 기본값은 n=5

 

etc-image-1
그림2..pd.read_csv 예시

 

sep=’\s+’에서 \s는 single space로 빈칸을 뜻하고 +로 빈칸수가 무작위로 나올때를 뜻함. 데이터가 나눠진 빈칸 수가 다 다를때 사용

 

df_data.columns = []으로 데이터 프레임의 columns 명을 변경할 수 있음

 

etc-image-2
그림3. column 이름 변경한 모습

 

df_data.values로 데이터 instance array를 출력

 

etc-image-3
그림4. 데이터 프레임의 row를 array로 출력

 

 

4. series

 

데이터프레임(dataframe)은 데이터 테이블 전체를 포함하는 object

 

series는 데이터 프레임의 부분집합으로 column object이다

 

Series(data=(list,dict),index=(list))

 

index가 꼭 0,1,2,3,4, 등 순서대로 아니어도 됨

 

index는 꼭 숫자가 아님 a,b,c,d...등 문자도 가능

 

etc-image-4
그림5. 리스트를 받아서 series로 만든 예시

 

.index로 인덱스 출력,

 

.values로 값 출력,

 

.name으로 이름 출력, 변경

 

etc-image-5
그림6. series의 구성요소

 

indexing이 가능하고 데이터 타입 변경, value 변경도 가능

 

etc-image-6
그림7. series 값을 변경하고 indexing을 하는 예시

 

인덱스 리스트를 기준으로 시리즈를 생성

 

인덱스를 먼저 넣고 거기에 값을 넣음

 

그러니까 인덱스 리스트가 더 길때 못들어가는 데이터가 있고 거기에 NaN이 들어간다는 거지

 

etc-image-7
그림8. index를 먼저 만들고 value를 넣는다는 예시

 

 

728x90

'프로그래밍 > Pandas' 카테고리의 다른 글

Pandas 기초 6편  (0) 2021.11.25
Pandas 기초 5편  (0) 2021.11.25
Pandas 기초 4편  (0) 2021.11.24
Pandas 기초 3편  (0) 2021.11.24
Pandas 기초 2편  (0) 2021.11.23