Loading...
2021. 12. 13. 00:16

decision tree의 가지치기(pruning)

위와 같이 decision tree는 recursive partitioning을 통해 각 node에서 information gain이 순간 순간 최대가 되는 방향으로 feature를 선택하고 최종 node의 entropy가 0이 될 때까지 구분을 진행합니다. 그런데 딥러닝을 많이 하신 혹시나 이 글을 읽고 계신 분은 짐작하셨겠지만 주어진 training data에 너무나 fitting된다는 단점이 있습니다. 그러니까 새로운 data가 들어올 때 사실 정확한 분류를 해줄지는 미지수라는 점입니다. 그래서 pruning이라는 방법을 수행하여 일반화 능력(generalization performance)을 올려줍니다. 일반화 능력은 딥러닝에서 모델이 train중 한 번도 보지 못한 test data에 대해서도 ..

빅데이터분석기사 3회 대비 실전 벼락치기

1. 정렬하기 data.sort_values( by = (정렬기준이 되는 칼럼) , ascending =True/False) ascending =True이면 오름차순 정렬이고 ascending = False이면 내림차순 정렬 2. series는 대응하는 원소끼리 수학적 계산이 가능 단, 인덱스가 맞지 않으면 계산이 이상해질 수 있음 3. 통계량계산 data.mean() , data.median(), data.sum(), data.count(), data.std(), data.var(), .... 최빈값은 scipy 모듈을 이용해서 구할 수 있음 from scipy.stats import mode mode_data = mode(data) 4. 결측치 찾기 data.isnull().sum()을 통해 결측치가..

2021. 11. 30. 18:47

Numpy 기초 6편

1. time array 연산의 시간을 비교 일반적으로 for loop가 가장 느리고 다음으로 list comprehension이 빠르고 numpy가 가장 빠르다 numpy는 c로 구현하여 연산속도의 이점을 확보하고 dynamic typing을 포기 대용량 계산에서 numpy가 이득 concatenate같은 단순 할당연산에는 속도 이점이 없음 위에서부터 for loop연산,list comprehension연산,numpy 연산 numpy가 압도적으로 빠르다 2. comparison 단순히 array를 scalar와 비교하면 array 원소 모두에 대해 comparison하여 boolean array로 반환 3. any,all np.any() array내 모든 원소에 대해 하나라도 True이면 True np..

2021. 11. 29. 21:27

Numpy 기초 5편

1. element wise operation numpy는 단순 list와는 다르게 기본적으로 array끼리 사칙연산을 지원함 기본적으로는 *,+,-는 대응하는 원소끼리 연산함 dot product는 일반적인 행렬곱으로 a.dot(b) , a@b transpose는 a.T , a.transpose() 2. broadcasting shape가 다른 배열 간 연산도 지원함 scalar가 matrix의 모든 원소에 대응하여 연산함

2021. 11. 29. 20:57

Numpy 기초 4편

1. operation 기본적인 수학연산 지원 sum,mean,median,var,std 등등 지원 median 지원이 인상적 np.exp(), np.sqrt(), … 등 지수함수와 제곱근도 지원 표준편차는 std()로 구할 수 있고 median같은 경우는 a.median()이 아니라 np.median(a) 식으로 구해야 에러가 안나는듯 2. axis 연산 실행에서 기준이 되는 축 ndarray의 shape가 (a,b,c,d,e,.....)이면 a는 axis=0 b는 axis=1 c는 axis=2, d는 axis=3, e는 axis=4,..... 그림2에서 (3,4) array의 원소 합 sum()을 구한건데 axis=1이 shape에서 4를 나타내니까 원소 4개 있는 방향으로 sum을 함 그림3에서 (..