Loading...
2023. 7. 3. 02:14

multimodal learning1 - image and text joint embedding

1. character embedding character level의 경우 아스키코드로 0~255사이 값으로 mapping하여 코딩하는 경우 있지만 machine learning 관점에서는 오히려 사용하기 까다로울수 있다?? 몰랐는데 CNN을 이용하여 character embedding을 하는 경우도 많은 것 같음 underestimate가 과소평가하다라는 뜻인데 misunderestimate는 실제 없는 단어지만 mis와 underestimate의 합성어로 잘못 과소평가하다라는 뜻으로 추측할 수 있음 이런 인간의 언어 능력을 흉내내기 위해 character embedding을 연구하고 있다고는 함 2. word embedding 근데 보통은 word level에서 embedding하는 경우가 많다 오..

2023. 6. 25. 00:53

VPSNet의 panoptic segmentation 과정 분석

panoptic segmentation을 video에서도 사용하도록 만들고자 했다 1. 첫번째 단계 먼저 target feature map에 reference frame feature를 align시킨다(pixel fusion) reference frame과 target frame에서 convolution하여 feature map을 뽑아 각 layer의 map을 전부 합쳐 각 frame에서 하나의 map을 뽑았다 motion map $\phi$는 $\tau$시간차 나는 두 frame 사이에서 각 pixel이 서로 대응되는 함수관계를 모든 pixel에 대해 가지는 map 초기 motion map과 reference feature map, target feature map을 align시켜 새로운 motion ..