통계학 세상

빅데이터분석기사 3회 대비 실전 벼락치기

1. 정렬하기 data.sort_values( by = (정렬기준이 되는 칼럼) , ascending =True/False) ascending =True이면 오름차순 정렬이고 ascending = False이면 내림차순 정렬 2. series는 대응하는 원소끼리 수학적 계산이 가능 단, 인덱스가 맞지 않으면 계산이 이상해질 수 있음 3. 통계량계산 data.mean() , data.median(), data.sum(), data.count(), data.std(), data.var(), .... 최빈값은 scipy 모듈을 이용해서 구할 수 있음 from scipy.stats import mode mode_data = mode(data) 4. 결측치 찾기 data.isnull().sum()을 통해 결측치가..

2021. 12. 3. 01:37

(빅데이터분석기사) pandas에서 count()를 사용할 때 주의할 점

위에 제시된 데이터프레임의 행의 개수를 구할려면 어떻게 해야할까? 434개인건 명백한데 count함수를 이용하면 다음과 같은 결과가 나온다 왜 이런 결과가 나왔을까? 다음은 데이터프레임에 들어간 boston['RM'].unique() array를 len함수를 이용해서 개수를 세어본 결과이다. 그 비밀은 NA값에 있다. 행의 개수를 세야할 때 pd.DataFrame.count()로 데이터프레임의 행의 개수를 셀 수 있는데 count()함수는 NA가 아닌 값만 세는 특징이 있다. 설명을 보면 non-NA값만 개수를 센다고 나와있다. 그래서 NA값을 세야하는지 세면 안되는지에 따라 주의해서 사용해야한다.

2021. 12. 2. 23:23

Pandas 기초 8편

1. merge 두개의 데이터 테이블을 하나로 합치는 기능 기본은 pd.merge(df1,df2,on=(기준변수)) left_on=(왼쪽 프레임의 기준변수), right_on=(오른쪽 프레임의 기준 변수) 4,5,7,8이 공통으로 subject_id에 들어있으므로 기준변수를 subject_id라 하면 inner join inner join은 두 데이터 프레임에서 공통된 것을 뽑아오고(기본) full join(outer join)은 기준변수에서 두 데이터 프레임 값 모두 가지고 오고 left join은 왼쪽 데이터 프레임은 모두 가지고오고 오른쪽 데이터프레임에 없는 것은 NaN으로 채워넣음 right join은 오른쪽 데이터 프레임은 모두 가지고오고 왼쪽 데이터프레임에 없는 것은 NaN으로 채워넣음 ind..

2021. 12. 2. 23:12

Pandas 기초 7편

1. groupby key별로 데이터를 각각 split하고 각각에 함수를 적용하여 결과를 합침 df.groupby((묶는 기준이 되는 열))[(적용받는 열)].(함수) 2개 이상의 열로 묶어낸 경우 리스트를 사용해서 넣어야한다 2. hierarchical index 두 줄 이상의 index를 가지는 dataframe unstack()으로 두줄의 index를 행과 열로 둔 matrix 형태로 바꿔줌 stack()을 하면 다시 원래 데이터프레임으로 되돌아옴 3. reset_index reset_index를 이용하여 index를 다시 데이터프레임의 변수로 만든다 4. swaplevel() swaplevel()하면 index level을 변경함 index level 기준으로 여러 기본 연산 수행이 가능 5. g..

2021. 12. 1. 23:59

Numpy 기초 8편

1. boolean index boolean array를 넣어 array를 추출함 condition을 넣어 condition에 맞는 array를 추출하는 방식 2. fancy index index array를 넣어 해당 index에 맞는 값들을 추출 index는 int로 선언해야 index로 인식함 3. data in&out loadtxt로 텍스트 파일을 열고 savetxt로 저장함 astype()은 원하는 type으로 바꿔줌 np.save를 통해 array를 pickle형태로 저장하고 다시 불러올 수 있음 array를 처음부터 다시 만들기 까다로울 때, 예상치 못한 상황이 발생할 때를 대비해서 저장해놓고 사용하면 편할 수 있음

2021. 12. 1. 23:42

Numpy 기초 7편

1. np.where() 1-1) np.where(,(True일때 출력),(False일때 출력)) 1-2) np.where() condition이 True인 index만을 차례대로 array로 반환 2. isnan & isfinite np.isnan() NaN인 값을 찾아 True, False array로 반환 np.isfinite() finite인 값 찾아 True, False array로 반환 3. argmax,argmin array내 최댓값 index 반환 >> argmax array내 최솟값 index 반환 >> argmin sorting한 index 반환 >>argsort a[np.argmin(a)] 하면 최솟값을 출력할 수 있음 비슷하게 a[a.argsort()] 하면 sorting한 arra..

통계학 세상

통계학 세상

통계학 세상

빅데이터분석기사 3회 대비 실전 벼락치기

(빅데이터분석기사) pandas에서 count()를 사용할 때 주의할 점

Pandas 기초 8편

Pandas 기초 7편

Numpy 기초 8편

Numpy 기초 7편

카테고리

블로그메뉴

공지사항

최신글

최신댓글

글 보관함

링크

방문자수

티스토리툴바

빅데이터분석기사 3회 대비 실전 벼락치기

(빅데이터분석기사) pandas에서 count()를 사용할 때 주의할 점

Pandas 기초 8편

Pandas 기초 7편

Numpy 기초 8편

Numpy 기초 7편

카테고리

블로그메뉴

공지사항

최신글

태그 클라우드

최신댓글

글 보관함

링크

방문자수

티스토리툴바