Loading...
2024. 3. 2. 00:07

Machine reading comprehension에서 어려운 점

1. paraphrasing 단어들 구성이 동일하진 않지만 동일한 의미의 문장을 이해해야함 위에서 재미있는 부분은 P1과 P2 둘다 question에 대한 답을 가지고 있기는 한데 모델 입장에서는 P1을 이해하기 쉬워함 왜냐하면 question에 존재하는 selected와 mission이 직접적으로 P1에 존재해서 그럼 그러나 P2는 question에 존재하는 단어들과 직접적으로 matching되는 단어들이 존재하지 않음 다른 단어로 paraphrasing하면서 생기는 부분을 model이 이해하기 어려워함 2. coreference resolution coreference란 그 사람, 그것같이 물건이나 사람 존재를 지칭하는 “참조”를 의미함 실제로 coreference같은 지시대명사가 나오면 그것이 무엇..

2024. 3. 1. 02:29

Machine reading comprehension 개요

1. Machine reading comprehension이란? 지문이 주어지고 주어진 지문을 이해하여 주어진 질의에 대한 답변을 추론하는 문제 서울 특별시에 대한 지문 context가 주어질 때 이 문서에 대한 질문으로 question ‘서울의 GDP는 세계 몇위인지?’ context와 question을 input으로 받아 machine이 이해하여 최종적으로 answer로 ‘세계 4위’라고 내놓는게 목표 1-1) 검색 엔진에서 MRC? 보통 검색 엔진에는 지문을 따로 주지 않아도 질문만 던지면 알아서 답을 내놓던데 어떻게 가능할까? 질문이 들어오면 search engine에서 질문과 관련된 지문을 찾음 관련 지문을 찾으면 이로부터 질문에 대한 답변을 찾아 내놓음 구글이나 네이버에서 질문을 던지면 답을 ..

2024. 3. 1. 02:06

라그랑주 승수법 간단하게

라그랑주 승수법은 제약조건이 있을 때 함수를 최대화, 최소화시키는 방법이다 최적화시키고자하는 함수 f(x,y)와 제약조건은 보통 g(x,y) = c 형태로 주어진다. 변하는 값은 함수 f(x,y)인데 이것을 변화시키다가 g(x,y) = c와 서로 접할때 함수 f가 최대가 되는 경우가 가장 쉬운 경우 https://deepdata.tistory.com/1115 gradient descent를 위한 gradient vector의 이론적 설명 간단하게 1. 방향도함수(directional derivate) 이변수함수 z = f(x,y)와 임의의 단위벡터(norm이 1인 벡터) u = (a,b)에 대하여... 벡터 u를 지나는 평면으로 z = f(x,y)를 잘랐을때 생기는 곡선 위 (x0,y0,z0)위에서의 접..

2024. 3. 1. 01:53

gradient descent를 위한 gradient vector의 이론적 설명 간단하게

1. 방향도함수(directional derivate) 이변수함수 z = f(x,y)와 임의의 단위벡터(norm이 1인 벡터) u = (a,b)에 대하여... 벡터 u를 지나는 평면으로 z = f(x,y)를 잘랐을때 생기는 곡선 위 (x0,y0,z0)위에서의 접선의 기울기? 다음과 같이 정의되는 식을 u = (a,b)에 대한 방향도함수라고 부른다. g(h) = f(x0 + ha, y0 + hb)라고 하자. h = 0이면 g(0) = f(x0,y0)이므로.. 그런데 x(h) = x0 + ha, y(h) = y0 + hb라 하고 g(h) = f(x(h), y(h))라고 하자. 합성함수 미분법에 의하여... 다음과 같이 유도가능하다. 위 식에 h = 0을 넣으면 g'(0)이고 이는 방향도함수와 같으므로... ..

2024. 1. 26. 03:25

Diffusion 모델의 기본 개념 아주 간단하게 알아보기

1. 목적 다음과 같은 이미지 데이터들로부터, 더욱 많은 캐릭터 이미지를 획득 이들을 훈련 데이터로 사용하여, 훈련 데이터에 포함되어 있지 않은 다른 캐릭터를 얻고자함 이를 diffusion model을 학습시켜 생성할 수 있다. 2. 과정 이런 데이터들을 신경망에 어떻게 학습시켜야할까? 생성하고자하는 '캐릭터'가 무엇인지 전반적인 개념에 대해 학습시킨다. 이러한 '개념'은 머리 색상, 벨트 여부, 몸 윤곽선 등등이 될 수 있다. 이러한 개념을 강조하기 위해 데이터에 noise를 추가할 수 있다. 이를 noising process라고 부른다. 마치 물에 잉크를 떨어뜨리면, 처음에는 잉크가 어디 떨어졌는지 알 수 있는데 시간이 지나면서 잉크가 확산(diffusion)하여 잉크가 어디에 떨어졌는지 알 수 없..

2024. 1. 13. 02:35

Regularization에 대해 꼭 생각해봐야하는 점(L2 regularization, dropout의 단점, early stopping의 단점, data augmentation의 단점)

모델이 validation set에 성능을 내지 못할때, training data에 overfitting이 되었을때 데이터를 더 많이 얻는 것은 좋은 방법이지만 항상 그럴 수는 없다. 그럴때 시도하면 좋은 것이 regularization L2 regularization은 가중치 W의 L2 norm, L1 regularization은 가중치 W의 L1 norm을 더해주는데... 1. 여기서 하나 bias도 parameter인데 왜 가중치 W 항만 더해주는것인가? 모델의 거의 모든 parameter가 W에 집중되어 있기 때문에 bias를 더할수도 있지만 계산비용 대비 거의 차이가 없다고 한다 2. L2 regularization을 일반적으로 많이 사용한다. L1 regularization을 사용하면 가중치 ..