'데이터프레임' 태그의 글 목록

데이터프레임에서 행별로 이상치 판단하기 (코딩테스트 복기)

1. 예시 데이터 생성 import pandas as pd import numpy as np a = ['xdjwew1235453kdrew',75,np.nan,np.nan] b = ['jgierw0548323kgfe',54,36,89] c = ['hjeir3058372jdkw',23,85,np.nan] d = ['gjewoe02853klfw',98,94,92] e = ['guehrwenk29584034kgneiew',np.nan,np.nan,55] df = pd.DataFrame([a,b,c,d,e]) 여기서 소소한 팁으로 np.nan으로 NaN값을 넣을 수 있다 'NaN'이나 nan이나 NaN이나 이런거 안됨 2. 행의 값들을 가져오는 방법 df.values하면 데이터프레임의 행들을 numpy array..

format_list_bulleted Pandas
· 2022. 3. 25.
textsms

데이터분석 전문가(ADP)를 위한 R프로그래밍 기초편7

factor로 집단을 정의하고 벡터를 factor에 의해 집단으로 분할 split(벡터, factor)함수를 이용 tapply(vec,factor,func)를 이용하여 집단별로 함수를 적용한다 > v w f groups groups $A [1] 24 23 25$ B [1] 52 46 $C [1] 75 > groups2 groups2$ A [1] 87 86 68 $B [1] 92 84$ C [1] 77 > groups3 groups3 $A [1] 24 23 25$ B [1] 52 46 $C [1] 75 > tapply(v,f,mean) A B C 24 49 75 > tapply(w,f,sum) A B C 241 176 77 데이터프레임을 여러 집단으로 분할하기 역시 split(벡터, factor)함수를 이..

format_list_bulleted R 프로그래밍
· 2022. 2. 12.
textsms

데이터분석 전문가(ADP)를 위한 R프로그래밍 기초편5

1. 데이터프레임 데이터에서 각각의 변수에 해당하는 열들의 모임 data.frame(벡터, 벡터, 벡터, ...) 벡터들로 데이터셋을 생성함 혹은 열 변수벡터로 데이터셋을 생성 혹은 data.frame(변수1이름=값, 변수2이름=값, 변수3이름=값,.....) > a b c d d a b c 1 1 5 9 2 2 6 10 3 3 7 11 4 4 8 12 > new new a b c d 1 1 2 3 a N=100 > dtfm dtfm$lab [1] "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" [42] "" "" "" "" "" ""..

format_list_bulleted R 프로그래밍
· 2022. 2. 8.
textsms

Pandas 기초 8편

1. merge 두개의 데이터 테이블을 하나로 합치는 기능 기본은 pd.merge(df1,df2,on=(기준변수)) left_on=(왼쪽 프레임의 기준변수), right_on=(오른쪽 프레임의 기준 변수) 4,5,7,8이 공통으로 subject_id에 들어있으므로 기준변수를 subject_id라 하면 inner join inner join은 두 데이터 프레임에서 공통된 것을 뽑아오고(기본) full join(outer join)은 기준변수에서 두 데이터 프레임 값 모두 가지고 오고 left join은 왼쪽 데이터 프레임은 모두 가지고오고 오른쪽 데이터프레임에 없는 것은 NaN으로 채워넣음 right join은 오른쪽 데이터 프레임은 모두 가지고오고 왼쪽 데이터프레임에 없는 것은 NaN으로 채워넣음 ind..

format_list_bulleted Pandas
· 2021. 12. 2.
textsms

Pandas 기초 7편

1. groupby key별로 데이터를 각각 split하고 각각에 함수를 적용하여 결과를 합침 df.groupby((묶는 기준이 되는 열))[(적용받는 열)].(함수) 2개 이상의 열로 묶어낸 경우 리스트를 사용해서 넣어야한다 2. hierarchical index 두 줄 이상의 index를 가지는 dataframe unstack()으로 두줄의 index를 행과 열로 둔 matrix 형태로 바꿔줌 stack()을 하면 다시 원래 데이터프레임으로 되돌아옴 3. reset_index reset_index를 이용하여 index를 다시 데이터프레임의 변수로 만든다 4. swaplevel() swaplevel()하면 index level을 변경함 index level 기준으로 여러 기본 연산 수행이 가능 5. g..

format_list_bulleted Pandas
· 2021. 12. 2.
textsms

Pandas 기초 6편

1. describe() numeric type을 요약해줌 문자형 데이터는 알아서 요약을 안해줌 2. unique() (series).unique() 해당 series의 중복을 제거하고 유일한 값들을 반환 3. 기본 수학 연산 sum,mean,min,max,count,var,median 등 기본 연산 지원 axis 가능 4. isnull() df.isnull()은 NaN인 곳을 찾아 True 아니면 False로 df.isnull().sum() 각 변수별 NaN의 개수를 구할 때 자주 씀 5. sort_values() df.sort_values( (by=)[열],ascending=) 지정된 열 기준으로 sorting 6. corr(),cov() .corr() 두 열간 상관계수 .cov() 두 열간 공분산 ..

format_list_bulleted Pandas
· 2021. 11. 25.
textsms

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

데이터프레임에서 행별로 이상치 판단하기 (코딩테스트 복기)

데이터분석 전문가(ADP)를 위한 R프로그래밍 기초편7

데이터분석 전문가(ADP)를 위한 R프로그래밍 기초편5

Pandas 기초 8편

Pandas 기초 7편

Pandas 기초 6편

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역