subword tokenizing, byte pair encoding 간단하게 알아보기

1. tokenizing 긴 text가 들어왔을 때 token단위로 text를 나누는 기술 가장 simple하게는 띄어쓰기 단위로 나누는 방법이 있는데 요즘에는 비효율적이라는 인식이 많다 띄어쓰기에서 더 나아가 형태소나 subword 형태로 tokenizing하는 경우가 많아 2. subword tokenizing 자주 쓰이는 글자 조합은 한단어로 취급하고 그렇지 않은 조합은 subword로 더욱 쪼갠다 ‘아버지 가방에 들어가신다’를 만약 띄어쓰기 기준으로 tokenizing을 하면 ‘아버지’, ‘가방에’, ‘들어가신다’인데 단어가 너무 커져 단어끼리 비교가 어렵대 그래서 조금 더 잘게 잘라서 하나의 단어를 1번 더 들어가 자르는 subword tokenizing을 함 ‘아버지’, ‘가’, ‘##방’, ..