1. introduction 정형 데이터를 위한 딥러닝 모델 테이블 형식의 데이터에 적합한 학습 아키텍처 전처리 과정이 필요없음 기존에는 feature 선택과 모델 학습 과정이 나누어져 있지만 TabNet은 한번에 가능하게 만듦 각 의사결정 단계에서 순차적인 attention으로 추론할 feature를 선택함 feature의 선택으로 어떠한 feature가 중요한 특징을 가지는지 설명도 가능함 label이 없는 데이터가 많을 때 self-supervised learning으로 representation에 효과적인 성능 향상을 보여줌 의사결정 각각 에서 왜 그 feature를 선택했는지 local interpretability와 모델이 만들어지면서 어떤 근거로 feature들이 선택되었는지 glo..
1. sequential model의 어려운 점 sequence data가 다루기 어렵다는 이유 중 input의 차원이 어느 정도인지 알기 어렵다는 점이 있었다. 추가로 시간 순서가 바뀌어서 들어온다든지 일부가 잘려서 들어온다든지 아니면 섞여서 들어온다든지 그래서 또 다루기가 어렵다 2. transformer 핵심 아이디어 위와 같은 input의 무작위성 때문에 sequence data를 다루기 어렵다는 한계를 극복하고자 등장했다. 처음 도입되었을 때는 기계어 번역 문제를 풀기 위해 도입했다. 지금은 이미지 분류, detection 등 다방면에서 활용되고 있다. sequence를 다루는 모델인데 그 동안 RNN이 재귀적구조를 활용했다면 Transformer은 attention구조를 활용했다. 3. tra..
BART는 기계 독해, 기계 번역, 요약, 대화 등 sequence to sequence 문제의 pre training을 위한 denoising autoencoder 1. BERT와 BART BERT는 transformer의 encoder만 활용했음 각 단어의 encoder embedding을 가져와 embedding을 수치화시킨 뒤 정답의 시작과 끝의 위치를 알아맞추는 extraction에 어울림 BART는 transformer의 encoder와 decoder가 모두 존재하여 encoder에서 input의 encoding을 수행한 뒤 encoding을 바탕으로 decoder에서 decoding을 통해 실제 text를 generation할 수 있어서 generation based MRC의 기본 모델로 사..
A Hierarchical Latent Vector Model for Learning Long-Term Structure in Music | Papers With Code Papers with Code - A Hierarchical Latent Vector Model for Learning Long-Term Structure in Music Implemented in 7 code libraries. paperswithcode.com 기본적으로 우리 모델은 autoencoder이며, 다시 말해 정확하게 input을 reconstruct하는 것을 목표로 한다. 그러나 우리는 추가적으로 새로운 sample을 만들어내고 잠재 공간의 interpolation과 attribute vector의 연산을 수행하길 원한..