Loading...
2024. 4. 24. 23:33

문장 생성의 성능평가 지표2 - bleu score

1. precision과 recall의 문제점 정답문장에 대해 2개의 모델로 예측문장을 얻었다고 해보자.   두번째 모델로 만든 문장의 경우 모든 단어가 정답문장 단어와 매칭이 되는데 순서가 전혀 맞지 않는다는 것이 문제다.  그럼에도 불구하고 precision과 recall은 100% 때로는 언어에서 순서는 매우 중요한데 단어만 맞췄다고 완벽한 번역이라고 볼수있을까? precision과 recall, f-measure는 계산방식으로부터 알 수 있겠지만  오직 부합하는 단어의 수에만 집중하기 때문에 순서정보를 전혀 반영하지 않는다는 것이 문제다.  2. introduction  bleu score는 순서를 반영하지 않는다는 precision과 recall의 문제점을 개..

2024. 4. 24. 00:34

문장 생성의 성능평가 지표1 - precision and recall, F-score

1. precision and recall translation 후에 생성된 문장이 정확한지 평가할 필요가 있다. 기본적으로 단어를 생성하는 방법은 target 각 단어별 실제 정답과의 softmax loss가 최소화되게 만든다. test data에 대해서도 예측된 단어와 정답인 단어의 softmax loss로 분류 정확도를 계산한다. 이런 논리에 기반하여 정답문장과 예측문장사이 각 단어별 matching count로 정확도를 평가하는 방법을 생각할 수 있다. I love you라는 정답문장을 출력해야하는데 oh I love you를 출력했다고한다면 각 matching count=0이니까 정확도는 0%이다. 그런데 크게 떨어지는 번역품질이라고 보기 어렵다 나쁘지 않은 번역.. 그러니까 0%라고 보기 어렵..

2024. 4. 16. 21:13

transformer 간단요약2 - encoder, attention, positional encoding, decoder

1. encoder encoder는 self attention 구조와 feed forward Neural Network 구조의 두개의 sub layer로 구성되어 있다 단어 입력의 경우에는 먼저 embedding vector로 변환하는 것이 기본이다. 당연하지만 word embedding은 맨 밑단 첫 입력에서만 일어남 벡터 크기는 hyperparameter로 적절하게 정한다고 한다. embedding된 벡터 각각은 자기만의 경로를 따라 encoder를 지나간다 위에서 보면 첫 통과 layer로 self attention을 지나가는데 도대체 무슨 일이 일어날까? 예를 들어보면 ‘The animal didn’t cross the street because it was too tired.’을 생각해보자. 이..

2024. 4. 16. 20:42

transformer 간단요약1 - transformer의 핵심 아이디어, 무엇을 이해해야하는가

1. sequential model의 어려운 점 sequence data가 다루기 어렵다는 이유 중 input의 차원이 어느 정도인지 알기 어렵다는 점이 있었다. 추가로 시간 순서가 바뀌어서 들어온다든지 일부가 잘려서 들어온다든지 아니면 섞여서 들어온다든지 그래서 또 다루기가 어렵다 2. transformer 핵심 아이디어 위와 같은 input의 무작위성 때문에 sequence data를 다루기 어렵다는 한계를 극복하고자 등장했다. 처음 도입되었을 때는 기계어 번역 문제를 풀기 위해 도입했다. 지금은 이미지 분류, detection 등 다방면에서 활용되고 있다. sequence를 다루는 모델인데 그 동안 RNN이 재귀적구조를 활용했다면 Transformer은 attention구조를 활용했다. 3. tra..

2024. 4. 7. 02:51

T5 모델 간단하게 알아보기

1. introduction text-to-text format을 적극적으로 밀었던 사실상 첫번째 model? BART랑 유사하면서도 text-to-text format을 활용하여 거의 모든 자연어처리 문제를 text-to-text format으로 해결하자고 제안했다 자세한 부분은 조금 다르겠지만 seq-to-seq original transformer와 유사한 구조를 사용했다 2. pre-training 다양한 모델 구조, 다양한 사전학습목표, 방대한 사전학습용 데이터셋, 다양한 fine tuning 방법등을 마련하여 체계적으로 실험을 수행 당연하지만 이들 중 가장 좋은 방식을 선택하여 방대한 규모의 모델을 학습시킴 BERT나 BART와 마찬가지로 T5같은 모델을 방대한 언어에 사전학습시켜서 fine-..

2024. 4. 4. 03:16

text-to-text format 방법론 간단하게

1. motivation GPT-2로 closed question answering의 가능성을 본 이후로 등장한 방법론 closed question answering는 generation MRC와 유사하다. 단, 둘의 차이라면 전자는 지문없이 질문만 들어간다 closed question answering도 BART같은 seq-to-seq transformer기반의 모델을 사용함 text-to-text format은 그 이름처럼 모든 종류의 NLP task를 text에서 text로 mapping하는 방식으로 치환하겠다는 방법론 input text 앞에 task에 대한 설명을 붙여준다. 그러면 모델이 처음 보는 task더라도 가지고 있는 언어 지식만으로 task를 이해하여 수행한 output을 출력할 수 있..