'정형데이터' 태그의 글 목록

정형데이터를 위한 딥러닝 모델 TabNet 간단하게

1. introduction 정형 데이터를 위한 딥러닝 모델 테이블 형식의 데이터에 적합한 학습 아키텍처 전처리 과정이 필요없음 기존에는 feature 선택과 모델 학습 과정이 나누어져 있지만 TabNet은 한번에 가능하게 만듦 각 의사결정 단계에서 순차적인 attention으로 추론할 feature를 선택함 feature의 선택으로 어떠한 feature가 중요한 특징을 가지는지 설명도 가능함 label이 없는 데이터가 많을 때 self-supervised learning으로 representation에 효과적인 성능 향상을 보여줌 의사결정 각각 에서 왜 그 feature를 선택했는지 local interpretability와 모델이 만들어지면서 어떤 근거로 feature들이 선택되었는지 glo..

format_list_bulleted 정형데이터
· 2024. 8. 25.
textsms

정형데이터 분석에서 feature selection하는 몇가지 방법

1. introduction 머신러닝 모델에서 직접 사용할 feature를 선택하는 과정 머신러닝 모델이 target변수를 예측하는데 유용한 feature와 유용하지 않은 feature를 구분해서 유용한 feature를 선택하는 과정 feature selection을 하면 모델의 복잡도를 낮춰주고 overfitting을 방지하며 속도를 높여주는 효과 그다지 도움이 되지 않는 noise feature를 제거하면 모델 성능이 오를 수도 있음 2. filter method model과는 상관없이 통계적인 측정방법으로 feature들의 상관관계를 알아내어 selection을 하는 방식 feature간의 상관계수를 이용하는 이 방식이 모델에 반드시 적합하다고 보기는 어려운데 계산속도 빠르고 간단하면서 featur..

format_list_bulleted 정형데이터
· 2024. 4. 3.
textsms

정형데이터 분석에서 feature importance와 permutation importance

1. introduction target 변수를 예측하는데 얼마나 유용한지에 따라 feature에 적절한 점수를 할당하여 중요도를 측정함 model-specific한 방법은 머신러닝 모델 자체에서 feature importance를 계산하게 해주는 기능을 제공함 model-agnostic한 방법은 머신러닝 모델에서 제공하는 기능에 의존하지 않고 모델을 학습한 후에 적용되는 feature importance를 계산하는 방식 2. boosting tree model-specific feature importance 2-1) LightGBM training된 LightGBM class에 feature_importance를 호출함 importance_type을 인자로 받는데 기본값은 'split'으로 tree ..

format_list_bulleted 정형데이터
· 2023. 12. 8.
textsms

cross validation out of fold prediction

model training시 cross validation을 통해서 model의 fold를 여러개 나눠서 out of fold validation 성능을 측정하고 test data예측을 통해 성능 향상을 유도 대충 데이터가 다음과 같이 생겼는데 2009/12~2011/11까지 데이터가 존재하고 우리가 예측해야할 것은 2011/12 train data는 2009/12~2011/11이고 test data는 2011/12 1) 2009/12~2011/11에서 적절하게 train과 validation을 label별로 고른 비율을 가지도록 stratified k fold split함 2) 각 fold별로 validation 예측을 하고 예측한 것을 out of fold에 하나 하나 다 모으는 거 3) 그리고 각 ..

format_list_bulleted 정형데이터
· 2023. 12. 7.
textsms

비전공자도 이해할 수 있는 AI지식 -단순한 머신러닝 모델의 강력한 힘-

1. 의사결정나무, 단순하지만 강력하다 강남역의 교통 체증을 예측하는 가장 간단한 방법은 조건에 따라 분기하는 모델인 의사결정나무를 만드는 겁니다. 우리가 어릴 때 하던 스무고개놀이와 비슷합니다. 스무고개놀이란 말 그대로 예 혹은 아니오로 답할 수 있는 질문을 스무번 제시하여 정답을 알아맞히는 놀이입니다. 질문의 횟수는 적을수록 좋습니다. 그렇다면 가급적 정답을 빨리 맞힐 수 있는 질문을 제시해야겠죠. 어떻게 질문을 구성해야 할까요? 2. 정답을 가장 빨리 찾는 질문은...? 의사결정나무를 구축할 때는 복잡도인 엔트로피(entropy)를 낮추는 형태로 진행합니다. 복잡도는 다르게 표현하면 불확실성의 정도(uncertainty)라 할 수 있습니다. 즉 엔트로피가 낮아지면 복잡도와 불확실성이 줄어듭니다. 이..

format_list_bulleted 비전공자도 이해할 수 있는 AI지식
· 2023. 1. 4.
textsms

CNN(Convolutional neural network) 기본 개념 되돌아보기

1. CNN 등장 CNN(Convolutional neural network)은 이미지나 영상을 다루는 컴퓨터 비전에서 가장 대표적으로 사용되는 인공신경망 1980년대 얀 르쿤(Yann LeCun)이 우편번호와 수표의 숫자 필기체를 인식하는 LeNet이라는 모델을 개발하면서 처음 소개 알고리즘이 성공적으로 동작했으나, 10개의 숫자도 학습하는데 3일이나 걸렸음 30년이 지난 후, 과적합과 학습 시간 문제를 해결하면서 지금은 이미지 분류는 기본이고 얼굴 인식, 자율주행같은 어려운 과제인 객체 인식에서도 효과적으로 CNN이 사용 2. 정형데이터와 이미지데이터의 차이? 정형데이터는 데이터베이스 시스템의 테이블과 같이 고정된 칼럼(column)과 개체(observation)의 관계로 구성 이미지는 사람의 눈으로..

format_list_bulleted Computer Vision
· 2022. 12. 18.
textsms

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

정형데이터를 위한 딥러닝 모델 TabNet 간단하게

정형데이터 분석에서 feature selection하는 몇가지 방법

정형데이터 분석에서 feature importance와 permutation importance

cross validation out of fold prediction

비전공자도 이해할 수 있는 AI지식 -단순한 머신러닝 모델의 강력한 힘-

CNN(Convolutional neural network) 기본 개념 되돌아보기

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역