Pandas 기초 1편
1. pandas 개요
구조화된 데이터 처리를 지원하는 파이썬계의 엑셀
numpy와 통합하여 통계분석, 인덱싱, 연산, 전처리 등 지원
import pandas as pd로 호출
2. 데이터 프레임 기본 용어
데이터의 전체 집합이 data table, sample
변수는 feature, column, attribute, field
각 행, 개별 데이터들은 instance, row, tuple
3. read_csv
pd.read_csv(‘파일위치’,sep=,header=(첫줄을 데이터로 보면 False 변수로 보면 True)
df.head(n=) n행만큼 데이터 출력, 기본값은 n=5
sep=’\s+’에서 \s는 single space로 빈칸을 뜻하고 +로 빈칸수가 무작위로 나올때를 뜻함. 데이터가 나눠진 빈칸 수가 다 다를때 사용
df_data.columns = []으로 데이터 프레임의 columns 명을 변경할 수 있음
df_data.values로 데이터 instance array를 출력
4. series
데이터프레임(dataframe)은 데이터 테이블 전체를 포함하는 object
series는 데이터 프레임의 부분집합으로 column object이다
Series(data=(list,dict),index=(list))
index가 꼭 0,1,2,3,4, 등 순서대로 아니어도 됨
index는 꼭 숫자가 아님 a,b,c,d...등 문자도 가능
.index로 인덱스 출력,
.values로 값 출력,
.name으로 이름 출력, 변경
indexing이 가능하고 데이터 타입 변경, value 변경도 가능
인덱스 리스트를 기준으로 시리즈를 생성
인덱스를 먼저 넣고 거기에 값을 넣음
그러니까 인덱스 리스트가 더 길때 못들어가는 데이터가 있고 거기에 NaN이 들어간다는 거지
'프로그래밍 > Pandas' 카테고리의 다른 글
Pandas 기초 6편 (0) | 2021.11.25 |
---|---|
Pandas 기초 5편 (0) | 2021.11.25 |
Pandas 기초 4편 (0) | 2021.11.24 |
Pandas 기초 3편 (0) | 2021.11.24 |
Pandas 기초 2편 (0) | 2021.11.23 |