Loading...
2024. 1. 3. 02:04

Pandas 기초 9편

1. add_prefix 변수명에 접두사 추가 2. rename 변수명을 변경 3. pivot_table 엑셀테이블이고 교차빈도표 느낌인데 잘 정리된 데이터프레임 느낌..? 제대로 써본적이 없어서 잘 모르겠다.. 각 칸은 aggfunc으로 구해진 값으로 채워진듯 NA는 fill_value = 0으로 채웠을 것이고 crosstab은 pivot table의 특수한 형태라는데 뭔 차이인지 모르겠다 4. persistence 데이터베이스로 연결해주는 기능 제공(sqlite3) pickle이나 엑셀로 객체를 저장하여 다른 곳에 불러와서 사용할 수 있는 기능도 제공 요약하자면 객체를 피클이나 엑셀로 저장해서 다른 곳에도 쓸 수 있게하는 지속성(persistence)을 제공한다는 것 같음

2022. 3. 25. 02:38

데이터프레임에서 행별로 이상치 판단하기 (코딩테스트 복기)

1. 예시 데이터 생성 import pandas as pd import numpy as np a = ['xdjwew1235453kdrew',75,np.nan,np.nan] b = ['jgierw0548323kgfe',54,36,89] c = ['hjeir3058372jdkw',23,85,np.nan] d = ['gjewoe02853klfw',98,94,92] e = ['guehrwenk29584034kgneiew',np.nan,np.nan,55] df = pd.DataFrame([a,b,c,d,e]) 여기서 소소한 팁으로 np.nan으로 NaN값을 넣을 수 있다 'NaN'이나 nan이나 NaN이나 이런거 안됨 2. 행의 값들을 가져오는 방법 df.values하면 데이터프레임의 행들을 numpy array..

2021. 12. 2. 23:23

Pandas 기초 8편

1. merge 두개의 데이터 테이블을 하나로 합치는 기능 기본은 pd.merge(df1,df2,on=(기준변수)) left_on=(왼쪽 프레임의 기준변수), right_on=(오른쪽 프레임의 기준 변수) 4,5,7,8이 공통으로 subject_id에 들어있으므로 기준변수를 subject_id라 하면 inner join inner join은 두 데이터 프레임에서 공통된 것을 뽑아오고(기본) full join(outer join)은 기준변수에서 두 데이터 프레임 값 모두 가지고 오고 left join은 왼쪽 데이터 프레임은 모두 가지고오고 오른쪽 데이터프레임에 없는 것은 NaN으로 채워넣음 right join은 오른쪽 데이터 프레임은 모두 가지고오고 왼쪽 데이터프레임에 없는 것은 NaN으로 채워넣음 ind..

2021. 12. 2. 23:12

Pandas 기초 7편

1. groupby key별로 데이터를 각각 split하고 각각에 함수를 적용하여 결과를 합침 df.groupby((묶는 기준이 되는 열))[(적용받는 열)].(함수) 2개 이상의 열로 묶어낸 경우 리스트를 사용해서 넣어야한다 2. hierarchical index 두 줄 이상의 index를 가지는 dataframe unstack()으로 두줄의 index를 행과 열로 둔 matrix 형태로 바꿔줌 stack()을 하면 다시 원래 데이터프레임으로 되돌아옴 3. reset_index reset_index를 이용하여 index를 다시 데이터프레임의 변수로 만든다 4. swaplevel() swaplevel()하면 index level을 변경함 index level 기준으로 여러 기본 연산 수행이 가능 5. g..

2021. 11. 25. 23:22

Pandas 기초 6편

1. describe() numeric type을 요약해줌 문자형 데이터는 알아서 요약을 안해줌 2. unique() (series).unique() 해당 series의 중복을 제거하고 유일한 값들을 반환 3. 기본 수학 연산 sum,mean,min,max,count,var,median 등 기본 연산 지원 axis 가능 4. isnull() df.isnull()은 NaN인 곳을 찾아 True 아니면 False로 df.isnull().sum() 각 변수별 NaN의 개수를 구할 때 자주 씀 5. sort_values() df.sort_values( (by=)[열],ascending=) 지정된 열 기준으로 sorting 6. corr(),cov() .corr() 두 열간 상관계수 .cov() 두 열간 공분산 ..

2021. 11. 25. 22:03

Pandas 기초 5편

1. map 판다스의 series에도 각 요소에 함수를 적용시키는 map이 가능 series로 반환 위 그림은 series s1의 모든 요소에 함수 f를 적용시킨 map의 예시 모든 요소에 제곱을 수행하여 series로 반환함 series s1에 map을 수행해도 원본 s1은 그대로 있다 map을 활용하여 데이터를 교체하는 기법 map으로 dict를 넣으면 dict의 key를 index로 보고 해당 index에 value를 집어넣음 s1의 인덱스를 먼저 넣고 s2의 대응되는 인덱스의 값으로 넣는거임 df의 sex 열에 map을 활용하여 남자면 0 여자면 1을 대응시키는 one hot encoding을 수행 df.sex.unique()를 이용해 df.sex에는 male과 female밖에 없으니까 0 아니면..