Loading...
2024. 4. 3. 02:30

정형데이터 분석에서 feature selection하는 몇가지 방법

1. introduction 머신러닝 모델에서 직접 사용할 feature를 선택하는 과정 머신러닝 모델이 target변수를 예측하는데 유용한 feature와 유용하지 않은 feature를 구분해서 유용한 feature를 선택하는 과정 feature selection을 하면 모델의 복잡도를 낮춰주고 overfitting을 방지하며 속도를 높여주는 효과 그다지 도움이 되지 않는 noise feature를 제거하면 모델 성능이 오를 수도 있음 2. filter method model과는 상관없이 통계적인 측정방법으로 feature들의 상관관계를 알아내어 selection을 하는 방식 feature간의 상관계수를 이용하는 이 방식이 모델에 반드시 적합하다고 보기는 어려운데 계산속도 빠르고 간단하면서 featur..

2023. 12. 8. 01:40

정형데이터 분석에서 feature importance와 permutation importance

1. introduction target 변수를 예측하는데 얼마나 유용한지에 따라 feature에 적절한 점수를 할당하여 중요도를 측정함 model-specific한 방법은 머신러닝 모델 자체에서 feature importance를 계산하게 해주는 기능을 제공함 model-agnostic한 방법은 머신러닝 모델에서 제공하는 기능에 의존하지 않고 모델을 학습한 후에 적용되는 feature importance를 계산하는 방식 2. boosting tree model-specific feature importance 2-1) LightGBM training된 LightGBM class에 feature_importance를 호출함 importance_type을 인자로 받는데 기본값은 'split'으로 tree ..

2023. 12. 7. 01:49

cross validation out of fold prediction

model training시 cross validation을 통해서 model의 fold를 여러개 나눠서 out of fold validation 성능을 측정하고 test data예측을 통해 성능 향상을 유도 대충 데이터가 다음과 같이 생겼는데 2009/12~2011/11까지 데이터가 존재하고 우리가 예측해야할 것은 2011/12 train data는 2009/12~2011/11이고 test data는 2011/12 1) 2009/12~2011/11에서 적절하게 train과 validation을 label별로 고른 비율을 가지도록 stratified k fold split함 2) 각 fold별로 validation 예측을 하고 예측한 것을 out of fold에 하나 하나 다 모으는 거 3) 그리고 각 ..

2023. 1. 4. 00:21

비전공자도 이해할 수 있는 AI지식 -단순한 머신러닝 모델의 강력한 힘-

1. 의사결정나무, 단순하지만 강력하다 강남역의 교통 체증을 예측하는 가장 간단한 방법은 조건에 따라 분기하는 모델인 의사결정나무를 만드는 겁니다. 우리가 어릴 때 하던 스무고개놀이와 비슷합니다. 스무고개놀이란 말 그대로 예 혹은 아니오로 답할 수 있는 질문을 스무번 제시하여 정답을 알아맞히는 놀이입니다. 질문의 횟수는 적을수록 좋습니다. 그렇다면 가급적 정답을 빨리 맞힐 수 있는 질문을 제시해야겠죠. 어떻게 질문을 구성해야 할까요? 2. 정답을 가장 빨리 찾는 질문은...? 의사결정나무를 구축할 때는 복잡도인 엔트로피(entropy)를 낮추는 형태로 진행합니다. 복잡도는 다르게 표현하면 불확실성의 정도(uncertainty)라 할 수 있습니다. 즉 엔트로피가 낮아지면 복잡도와 불확실성이 줄어듭니다. 이..

2022. 12. 18. 03:24

CNN(Convolutional neural network) 기본 개념 되돌아보기

1. CNN 등장 CNN(Convolutional neural network)은 이미지나 영상을 다루는 컴퓨터 비전에서 가장 대표적으로 사용되는 인공신경망 1980년대 얀 르쿤(Yann LeCun)이 우편번호와 수표의 숫자 필기체를 인식하는 LeNet이라는 모델을 개발하면서 처음 소개 알고리즘이 성공적으로 동작했으나, 10개의 숫자도 학습하는데 3일이나 걸렸음 30년이 지난 후, 과적합과 학습 시간 문제를 해결하면서 지금은 이미지 분류는 기본이고 얼굴 인식, 자율주행같은 어려운 과제인 객체 인식에서도 효과적으로 CNN이 사용 2. 정형데이터와 이미지데이터의 차이? 정형데이터는 데이터베이스 시스템의 테이블과 같이 고정된 칼럼(column)과 개체(observation)의 관계로 구성 이미지는 사람의 눈으로..

2022. 6. 28. 12:32

time series data의 cross validation에 대한 여러가지 고찰

time series data는 일반적인 cross validation으로 검증을 수행해도 무리가 없을까? 일반적인 cross validation을 수행하면 과거 미래 데이터가 무작위로 섞일 것이다. 미래를 예측하기 위해서는 그 이전의 정보를 사용하여 예측하는 것이 기본인데 무작위로 뒤섞인다면 당연히 예측 성능이 떨어질 것이다. 1. ordering by time 기본적인 방법 중 하나는 데이터를 시간 순서대로 정렬하고 validation set을 train set보다 미래에 있는 것으로 선택하고 test set도 validation set, train set보다 미래에 있는 데이터를 선택하는 것이다. 이게 가장 흔하고 자주 사용하는 방법같다 그러나 이 방법이 안좋은 점은 test set은 무작위로 선택..