Loading...
2022. 9. 5. 02:05

이상치 탐지를 위한 기본적인 isolation forest 알고리즘

1. 비지도학습을 이용한 이상치 탐지(anomaly detection) 1-1) mahalanobis 거리를 이용한 outlier 탐지 1-2) k-means를 이용한 군집화 1-3) DBSCAN 1-4) isolation forest 2. isolation forest isolation을 이용하여 이상치를 탐지하는 알고리즘이다. isolation은 데이터의 나머지보다 특정 데이터 포인트가 얼마나 멀리 떨어져있는지를 나타내는 것이다. 기본적으로 이상치는 다른 정상데이터보다 분리시키기 쉽다는 성질을 이용한다 decision tree의 재귀 이진 분할을 활용하여 랜덤하게 변수를 선택하고, 이를 이용해 모든 데이터를 재귀 이진분할 시킨다. 이상치가 분할하기 쉬우므로 상대적으로 root node에 가까운 곳에 ..

2022. 9. 2. 15:38

Are Transformers Effective for Time Series Forecasting?

2022/08/15 1. abstract long term time series forecasting(LTSF)에 대해 transformer 기반의 해결책들이 최근에 많이 뜨고 있다. 과거 몇년간 성능이 증가하고 있음에도 불구하고 이 주제에서 이런 연구의 유효성에 대해 의문을 품고 있었다. 특히 transformer가 틀림없이 긴 sequence에서 원소들 사이에 의미적인 연관관계를 추출하는데 가장 성공한 solution이라는 것은 분명하다. 그러나 time series 모델링에서 우리는 연속적이면서 순서를 가진 점의 집합에서 시간적인 관계를 추출해야한다. positional encoding과 transformer의 부분 수열에 token을 쓰는 것이 어느정도 순서적인 정보를 보유하는데 도움을 주지만 순..

2022. 6. 28. 12:32

time series data의 cross validation에 대한 여러가지 고찰

time series data는 일반적인 cross validation으로 검증을 수행해도 무리가 없을까? 일반적인 cross validation을 수행하면 과거 미래 데이터가 무작위로 섞일 것이다. 미래를 예측하기 위해서는 그 이전의 정보를 사용하여 예측하는 것이 기본인데 무작위로 뒤섞인다면 당연히 예측 성능이 떨어질 것이다. 1. ordering by time 기본적인 방법 중 하나는 데이터를 시간 순서대로 정렬하고 validation set을 train set보다 미래에 있는 것으로 선택하고 test set도 validation set, train set보다 미래에 있는 데이터를 선택하는 것이다. 이게 가장 흔하고 자주 사용하는 방법같다 그러나 이 방법이 안좋은 점은 test set은 무작위로 선택..

2022. 6. 28. 01:58

NLP의 최신 트렌드 - GPT-1 파헤치기

1. NLP의 최신 트렌드 transformer와 self-attention block은 NLP분야에서 범용적인 encoder,decoder로 역할을 수행하며 좋은 성능을 보였다. 처음 제안된 transformer의 self-attention block은 6개였는데 이제는 12개,24개,... 그 이상으로 더욱 쌓아올려 model을 구성한다. 이렇게 쌓은 모델을 self-supervised learning라는 framework하에 대규모의 train data로 pre-train하여 다양한 NLP task등에 transfer learning로 fine-tuning하는 형태로 활용하는 거대한 모형 BERT,GPT,ELECTRA,ALBERT 등이 등장했다. 이런 거대한 모형의 self-supervised le..

2022. 6. 26. 00:53

데이터 전처리 - 이상치를 처리하는 방법의 기초

1. 이상치란? 데이터 중 일반적인 데이터와 크게 다른 데이터를 의미함 모델 성능에 큰 영향을 줄 수 있어 조심히 접근해야함 위의 왼쪽에는 상관관계가 0.95로 계산되는데 이상해보이는 3개 제거하고 나니 실제로는 랜덤하게 흩뿌려진 데이터 분포를 나타냄 아래의 그림에서 왼쪽을 보면 깔끔하게 상관관계를 보이는 데이터 분포 그런데 이상한 데이터가 추가되고나니 오른쪽처럼 상관관계가 약간 더러워짐? 2. Z score Z score로 이상치를 탐지할 수 있는데 관측치 X에 대해 이들의 평균이 $\mu$, 표준편차가 $\sigma$이면 특정 $i$번째 관측치 $X_{i}$의 Z score란 $$Z_{i} = \frac{X_{i} - \mu}{\sigma}$$로 구해지고 이것은 N(0,1)을 따른다. 정규분포의 특징..

2022. 6. 24. 21:04

정형데이터에서 결측치를 처리하는 방법

boston data에서 임의로 15~25% 결측치를 생성했음 1. pattern을 통한 결측치 처리 결측치의 pattern을 대략적으로 파악하면 어떤 식으로 처리할지 감이 올 수 있음 x축을 개별 변수, y축을 변수의 value로 하고 heatmap을 그림 전체 dataset의 x축을 feature, y축을 feature의 value라고 하여 pattern을 그려보면 왼쪽과 같이 random하게 결측치가 있을 수 있고 오른쪽 처럼 어떤 규칙을 보일수도 있음 위와 같이 boston dataset의 pattern을 그려보니 결측치가 random하게 분포하는 것 같음 random하게 15~25% 결측치를 만들었으니까 가상으로 만든 dataset의 pattern이 위와 같다면 결측치가 어떤 규칙을 가지고 분포..