landmark localization task 기본개념 배우기

1. motivation

 

사람의 얼굴, 포즈, 특정 물체에 대해 중요하다고 생각하는 특징 부분의 좌표를 추정하는 문제

 

여기서 말하는 ‘중요하다고 생각하는 특징’이 landmark, keypoint이며  개수나 대상 위치 등이 미리 정의돼있다

 

 

사람의 얼굴에서는 눈, 코, 입 등이 중요한 landmark라고 미리 정의하고 localization을 수행한 것이다

 

 

2. coordinate regression

 

N개 landmark의 (x,y)위치를 2N dimension vector로 예측함

 

부정확하고 일반화가 어려운 문제가 있다

 

 

 

image를 CNN에 넣어 feature map을 뽑고 fully connected layer로 x,y 좌표 dimension vector로 예측

 

 

3. heatmap classification

 

coordinate regression의 대안으로 나왔다.

 

N개의 landmark에 대하여 최종 feature map이 N개의 채널로 나오도록

 

각 채널의 feature map들은 해당 landmark가 pixel별로 나타날 확률분포를 나타는 heat map

 

성능은 좋았으나 모든 pixel에 대해 계산해서 계산량이 너무 많다

 

image를 넣었을 때 ground truth heatmap이 나왔으면 하는 방향으로 학습을 진행

 

생각해보면 ground truth 구하기도 쉽지 않을듯?

 

 

4. landmark localization to gaussian heatmap

 

heatmap이란 각 pixel마다 특정 물체가 등장할 confidence(확률)를 표현하는 map

 

activation map에서 activation value값으로 표현될 것

 

landmark의 location $(x_{c}, y_{c})$가 주어질 때 gaussian heatmap을 구하는 value

 

 

(x,y)는 heatmap 전체 크기 내에서 가능한 pixel들

 

(x,y)가 landmark point $(x_{c}, y_{c})$일 때 gaussian 값이 가장 크고 $(x_{c},y_{c})$에 멀어질 수록 gaussian 값이 작아진다

 

 

5. gaussian heatmap to landmark localization

 

그렇다면 반대로 heatmap이 주어질 때 landmark localization은 어떻게 구할까?

 

바로 위에서 말했지만 gaussian 값이 가장 큰 곳은 landmark point라고 했으므로

 

heatmap의 activation value가 가장 큰 곳의 (x,y)좌표를 구하면 된다

TAGS.

Comments