BERT를 가볍게 만드려는 시도 - ALBERT 모델 공부하기

1. introduction A Lite BERT, 가벼워진 BERT 그동안 NLP 모델들은 대규모의 parameter를 가지는 괴물 모델로 발전해왔다. 그것이 정말로 좋은가? 많은 경우에 메모리 사용량은 한정되어있고 대규모 모델은 학습속도가 매우 느리며 시간도 엄청 필요하다. 특별한 방법으로 성능의 큰 하락없이, 오히려 더 좋아지면서 model의 size를 줄이고 학습시간을 빠르게하는 방법을 제시했다. 2. Factorized embedding parameterization self-attention block은 residual connection을 수행하는데 input과 output을 더해야한다는 점이 특징이다. 이것은 input과 output의 size가 동일해야 가능하다. 이 output hidd..