Loading...
2022. 3. 25. 02:38

데이터프레임에서 행별로 이상치 판단하기 (코딩테스트 복기)

1. 예시 데이터 생성 import pandas as pd import numpy as np a = ['xdjwew1235453kdrew',75,np.nan,np.nan] b = ['jgierw0548323kgfe',54,36,89] c = ['hjeir3058372jdkw',23,85,np.nan] d = ['gjewoe02853klfw',98,94,92] e = ['guehrwenk29584034kgneiew',np.nan,np.nan,55] df = pd.DataFrame([a,b,c,d,e]) 여기서 소소한 팁으로 np.nan으로 NaN값을 넣을 수 있다 'NaN'이나 nan이나 NaN이나 이런거 안됨 2. 행의 값들을 가져오는 방법 df.values하면 데이터프레임의 행들을 numpy array..

데이터분석 전문가(ADP)를 위한 R프로그래밍 기초편7

factor로 집단을 정의하고 벡터를 factor에 의해 집단으로 분할 split(벡터, factor)함수를 이용 tapply(vec,factor,func)를 이용하여 집단별로 함수를 적용한다 > v w f groups groups $A [1] 24 23 25 $B [1] 52 46 $C [1] 75 > groups2 groups2 $A [1] 87 86 68 $B [1] 92 84 $C [1] 77 > groups3 groups3 $A [1] 24 23 25 $B [1] 52 46 $C [1] 75 > tapply(v,f,mean) A B C 24 49 75 > tapply(w,f,sum) A B C 241 176 77 데이터프레임을 여러 집단으로 분할하기 역시 split(벡터, factor)함수를 이..

2022. 2. 8. 01:28

데이터분석 전문가(ADP)를 위한 R프로그래밍 기초편5

1. 데이터프레임 데이터에서 각각의 변수에 해당하는 열들의 모임 data.frame(벡터, 벡터, 벡터, ...) 벡터들로 데이터셋을 생성함 혹은 열 변수벡터로 데이터셋을 생성 혹은 data.frame(변수1이름=값, 변수2이름=값, 변수3이름=값,.....) > a b c d d a b c 1 1 5 9 2 2 6 10 3 3 7 11 4 4 8 12 > new new a b c d 1 1 2 3 a N=100 > dtfm dtfm$lab [1] "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" [42] "" "" "" "" "" ""..

2021. 12. 2. 23:23

Pandas 기초 8편

1. merge 두개의 데이터 테이블을 하나로 합치는 기능 기본은 pd.merge(df1,df2,on=(기준변수)) left_on=(왼쪽 프레임의 기준변수), right_on=(오른쪽 프레임의 기준 변수) 4,5,7,8이 공통으로 subject_id에 들어있으므로 기준변수를 subject_id라 하면 inner join inner join은 두 데이터 프레임에서 공통된 것을 뽑아오고(기본) full join(outer join)은 기준변수에서 두 데이터 프레임 값 모두 가지고 오고 left join은 왼쪽 데이터 프레임은 모두 가지고오고 오른쪽 데이터프레임에 없는 것은 NaN으로 채워넣음 right join은 오른쪽 데이터 프레임은 모두 가지고오고 왼쪽 데이터프레임에 없는 것은 NaN으로 채워넣음 ind..

2021. 12. 2. 23:12

Pandas 기초 7편

1. groupby key별로 데이터를 각각 split하고 각각에 함수를 적용하여 결과를 합침 df.groupby((묶는 기준이 되는 열))[(적용받는 열)].(함수) 2개 이상의 열로 묶어낸 경우 리스트를 사용해서 넣어야한다 2. hierarchical index 두 줄 이상의 index를 가지는 dataframe unstack()으로 두줄의 index를 행과 열로 둔 matrix 형태로 바꿔줌 stack()을 하면 다시 원래 데이터프레임으로 되돌아옴 3. reset_index reset_index를 이용하여 index를 다시 데이터프레임의 변수로 만든다 4. swaplevel() swaplevel()하면 index level을 변경함 index level 기준으로 여러 기본 연산 수행이 가능 5. g..

2021. 11. 25. 23:22

Pandas 기초 6편

1. describe() numeric type을 요약해줌 문자형 데이터는 알아서 요약을 안해줌 2. unique() (series).unique() 해당 series의 중복을 제거하고 유일한 값들을 반환 3. 기본 수학 연산 sum,mean,min,max,count,var,median 등 기본 연산 지원 axis 가능 4. isnull() df.isnull()은 NaN인 곳을 찾아 True 아니면 False로 df.isnull().sum() 각 변수별 NaN의 개수를 구할 때 자주 씀 5. sort_values() df.sort_values( (by=)[열],ascending=) 지정된 열 기준으로 sorting 6. corr(),cov() .corr() 두 열간 상관계수 .cov() 두 열간 공분산 ..