Loading...
2023. 6. 30. 02:31

서로 관련없는 이미지로 바꿔버리는 CycleGAN의 핵심 아이디어

1. motivation Pix2Pix에서는 pairwise data로 x에 대한 ground truth인 y가 필요한 supervised learning 문제는 항상 이런 pairwise data를 얻는 것이 쉽지가 않다. 사실상 불가능한 경우도 많다 그래서 서로 무관한 X라는 style의 image dataset과 Y라는 style의 image dataset을 활용하는 방법은 없을까? 직접적인 대응관계가 없는 X,Y 사이에서 image translation이 가능하도록 만든 것이 CycleGAN이다. pairwise data가 필요하다는 제약사항을 뛰어넘으면서 응용범위가 늘어났다 2. CycleGAN loss X에서 Y를 생성하는 GAN loss와 Y에서 X를 생성하는 GAN loss와 Cycle c..

2023. 6. 29. 02:46

image to image translation의 기본 모델인 Pix2Pix이 GAN의 약점 mode collapse를 어떻게 해결했는가

1. image translation 하나의 이미지 스타일을 다른 이미지 스타일로 변화시키는 문제 흑백사진을 컬러사진으로 바꾸고 낮 사진을 밤사진으로 바꾸거나 스케치 사진을 실제 이미지 사진으로 바꾸는 단순한 문제부터 semantic segmentation 이미지를 일반 이미지로 바꾸거나 일반 인공위성 사진으로부터 지도를 출력하는 문제 등 다양하다 앞에서 다룬 super resolution도 하나의 예시 2. GAN loss의 치명적인 문제점 - mode collapse 앞에서 MAE loss는 평균적인 blurry한 이미지를 출력해준다며 안좋다고 했고 GAN loss가 실제 이미지에 가까운 사진을 출력해준다며 극찬을 했는데 실제로 GAN이 대단하다는 이미지 때문에 생각하기 어려운데 GAN은 사실 치명적..

2023. 6. 29. 02:10

image to image translation - super resolution, colorization, style transfer - 의 개념 이해하기

1. motivation 한 image를 다른 image로 바꾸는 것이라고 생각하면 된다 저해상도 image를 고해상도 image로 바꾸는 super resolution 흑백사진을 컬러사진으로 바꾸는 colorization image의 style을 바꾸는 style transfer 다음은 input image를 Van Gogh, Monet 스타일 등으로 바꾼 예시 다음은 전혀 다른 느낌의 게임 테마를 만드는 예시 디자이너, 게임감독 비용을 감소시키며 디자이너들에게 영감을 주는 용도로도 활용될 수 있다 2. super resolution 저해상도 이미지를 고해상도 이미지로 출력하는 문제 conditional GAN의 대표적인 예시 GAN을 이야기해서 GAN으로만 풀 수 있는 거 아니냐고 물을 수 있겠지만 ..

2023. 6. 26. 03:36

bounding box를 추정하는 방식이 다른 CornerNet과 CenterNet

1. CornerNet 1-1) 구조 bounding box가 top-left corner 좌표와 bottom right corner 좌표만 있으면 충분하다는 점을 이용 backbone network에서 feature map을 뽑아 top left point만을 예측하는 heatmap과 bottom right point를 예측하는 heatmap을 생성함 그 heatmap을 embedding하여 각 point가 어떤 정보를 가지는지 확률분포를 계산 top left embedding과 bottom right embedding이 같은 bounding box에서 나온 것(같은 object에서 나온 것)이라면 비슷한 분포로 나올 것 당연하지만 object가 여러개 있을 수 있으니(그림에서는 2개) point도 여..

2023. 6. 25. 01:55

image의 landmark를 추정하는 모델의 기본인 Hourglass Network

1. 전체 구조 이미지의 landmark를 추정하는 model 모래시계 모양(hourglass)의 network를 여러개 쌓아 올린 network 이미지를 최대한 작게 만들어 receptive field를 최대로 키워 landmark찾는데 신중하게 결론을 내리도록 함 skip connection 구조를 만들어 low level의 feature를 참고하여 더욱 정확한 landmark 위치를 찾도록 함 근데 단 1번의 network만 사용하지 않고 여러개 쌓아올렸다는 것은 network를 올라가면서 더욱 큰 그림을 그려가며 landmark 정보를 더욱 정교하게 찾아가도록 만들었음 2. hourglass module의 구조 하나의 stack인 hourglass module의 전반적인 구조는 위 그림의 모든 b..

2023. 6. 25. 00:53

VPSNet의 panoptic segmentation 과정 분석

panoptic segmentation을 video에서도 사용하도록 만들고자 했다 1. 첫번째 단계 먼저 target feature map에 reference frame feature를 align시킨다(pixel fusion) reference frame과 target frame에서 convolution하여 feature map을 뽑아 각 layer의 map을 전부 합쳐 각 frame에서 하나의 map을 뽑았다 motion map $\phi$는 $\tau$시간차 나는 두 frame 사이에서 각 pixel이 서로 대응되는 함수관계를 모든 pixel에 대해 가지는 map 초기 motion map과 reference feature map, target feature map을 align시켜 새로운 motion ..