Loading...
2022. 12. 29. 23:18

비전공자도 이해할 수 있는 AI지식 -인간보다 말을 잘하는 기계의 등장-

1. 괴물같은 언어 인공지능의 등장 2015년 인류 전체에 이익이 되는 범용 인공지능을 목표로 비영리 인공지능연구소 오픈 AI가 발족합니다. 여기에는 전 세계 최고의 인공지능 연구자들이 모여들었습니다. 설립자들 또한 일론 머스크, 실리콘 밸리 투자 회사 Y컴비네이터 회장 샘 올트먼, AlexNet과 기계번역, 알파고 개발에 참여한 일리야 수츠케버 등이 참여한 드림팀이었습니다. 2019년에는 마이크로소프트가 1조원을 투자하기로 결정해 화제가 되기도 했죠. 이러한 투자에 힘입어 AI에는 놀라운 결과물이 쏟아졌습니다. 그중에서도 대표적인 것이 언어 생성 모델인 GPT(generative pretrained transformer)입니다. GPT는 6장에서 소개했던 기계번역 모델인 트랜스포머에서 디코더만 가져와 ..

2022. 12. 17. 03:07

비전공자도 이해할 수 있는 AI지식 - 딥러닝은 기계번역을 어떻게 바꾸었는가-

1. 신경망 기반, 자연스러운 번역의 시작 2010년대 들어 드디어 딥러닝이 주목받기 시작합니다. 먼저 구문 기반으로 분석하는 방식에 딥러닝을 적용해봅니다. 그리고 우리나라의 조경현 교수가 몬트리올대학교에서 박사 후 과정 중에 성공적인 결과를 넀습니다. 이때부터 바야흐로 딥러닝을 본격적으로 기계번역에 도입합니다. 이후에는 구문 단위를 넘어 아예 문장 전체에 딥러닝을 적용하죠. 이를 신경망 기반 기계번역(Neural Machine Translation)이라고 합니다. 그렇다면, 신경망 기반 기계번역은 어떻게 작동할까요? 앞서 단어 기반에서 구문 기반으로 확장하면 보다 자연스러운 문장이 나온다고 얘기한 바 있습니다. 신경망 기반은 한발 더 나아가 문장 전체를 마치 하나의 단어처럼 통째로 번역해서 훨씬 더 자..

2022. 10. 24. 17:10

현대 NLP 모델의 근간이 되는 BERT의 기본적인 특징

1. pre-trained model은 왜 의미있을까? pre-training과정에서 수행한 up-stream task의 data는 별도의 label이 필요하지 않은 데이터라는 것이 하나의 강점이다. ------------------------------------------------------------------------------------------------------------------------------- 다음 단어를 맞추는 것이 label이 없다고? GPT-1이 수행한 다음 단어를 예측하는 pre-training task는 input sequence와 output sequence가 동일한 task이다. 쉽게 말해 input sequence를 차례대로 읽어들여 input sequenc..

2022. 9. 2. 15:38

Are Transformers Effective for Time Series Forecasting?

2022/08/15 1. abstract long term time series forecasting(LTSF)에 대해 transformer 기반의 해결책들이 최근에 많이 뜨고 있다. 과거 몇년간 성능이 증가하고 있음에도 불구하고 이 주제에서 이런 연구의 유효성에 대해 의문을 품고 있었다. 특히 transformer가 틀림없이 긴 sequence에서 원소들 사이에 의미적인 연관관계를 추출하는데 가장 성공한 solution이라는 것은 분명하다. 그러나 time series 모델링에서 우리는 연속적이면서 순서를 가진 점의 집합에서 시간적인 관계를 추출해야한다. positional encoding과 transformer의 부분 수열에 token을 쓰는 것이 어느정도 순서적인 정보를 보유하는데 도움을 주지만 순..

2022. 6. 28. 01:58

NLP의 최신 트렌드 - GPT-1 파헤치기

1. NLP의 최신 트렌드 transformer와 self-attention block은 NLP분야에서 범용적인 encoder,decoder로 역할을 수행하며 좋은 성능을 보였다. 처음 제안된 transformer의 self-attention block은 6개였는데 이제는 12개,24개,... 그 이상으로 더욱 쌓아올려 model을 구성한다. 이렇게 쌓은 모델을 self-supervised learning라는 framework하에 대규모의 train data로 pre-train하여 다양한 NLP task등에 transfer learning로 fine-tuning하는 형태로 활용하는 거대한 모형 BERT,GPT,ELECTRA,ALBERT 등이 등장했다. 이런 거대한 모형의 self-supervised le..

2022. 5. 18. 20:03

transformer의 마지막 encoder-decoder multi head attention

1. encoder-decoder multi head attention decoder의 2번째 attention layer는 특별하게 encoder decoder multi head attention으로 불린다. decoder의 masked self attention 이후 나온 결과는 Query로 들어오고 encoder의 최종 결과로 나오는 hidden vector는 적절하게 변형?되어 key,value로 들어온다 decoder의 query는 encoder가 이해한 맥락정보로부터 받아온 key value중 어떠한 정보에 더 집중할지 attention 연산을 수행하게 된다. 그 후 residual connection, layer normalization을 거치고 나온 결과에 encoder가 그랬던 것처럼 ..