'Video' 태그의 글 목록

multimodal learning의 기본 개념, 왜 어려운 문제인가?

1. motivation 다양한 타입, 형태, 특성을 가지는 데이터를 특별한 제한없이 모두 사용하여 모델을 학습시키는 방법 지금까지는 이미지 하나만을 사용해서 모델을 학습시켜왔지만 사실 사람들은 눈으로 보면서(이미지) 귀로 동시에 듣기(소리)도 하며 맛을 보기 전에도 코로 냄새를 맡는 등 자연스럽게 multimodal을 사용하는 것이 기본이다. 그 외에도 사람들은 social perception, 3D world의 depth perception등 느끼지는 못하지만 실제로는 사용하고 있는 다양한 감각들을 모두 사용하여 학습을 한다. 2. 어려운 점 다양한 형태의 데이터를 사용하여 학습을 하고자하는데 여러 타입의 데이터를 표현하는 방법이 모두 다르다는 것이 문제다. 오디오는 1d signal wa..

format_list_bulleted 딥러닝/Computer Vision
· 2023. 7. 3.
textsms

VPSNet의 panoptic segmentation 과정 분석

panoptic segmentation을 video에서도 사용하도록 만들고자 했다 1. 첫번째 단계 먼저 target feature map에 reference frame feature를 align시킨다(pixel fusion) reference frame과 target frame에서 convolution하여 feature map을 뽑아 각 layer의 map을 전부 합쳐 각 frame에서 하나의 map을 뽑았다 motion map $\phi$는 $\tau$시간차 나는 두 frame 사이에서 각 pixel이 서로 대응되는 함수관계를 모든 pixel에 대해 가지는 map 초기 motion map과 reference feature map, target feature map을 align시켜 새로운 motion ..

format_list_bulleted 딥러닝/Computer Vision
· 2023. 6. 25.
textsms

실시간으로 instance segmentation을 수행하기 위한 YOLACT의 아이디어 알아보기

1. YOLACT 1-1) motivation Mask R-CNN은 region proposal을 수행하고 segmentation을 수행하는 two stage 구조로 조금 느려 real time instance segmentation을 수행하기 위한 single stage 구조의 모델이 등장 1-2) 구조 feature pyramid network 구조를 사용하여 고해상도 feature map을 뽑는다 Mask R-CNN이 비효율적으로 실제 쓰지 않더라도 하나의 bounding box에 대해 모든 class의 마스크를 일단 만들었는데 Protonet을 사용하여 mask의 prototype(soft segmentation component)을 일단 만든다는 것이 핵심이다 효율적으로 생성하기 위해 proto..

format_list_bulleted 딥러닝/Computer Vision
· 2022. 10. 31.
textsms

multimodal learning의 기본 개념, 왜 어려운 문제인가?

VPSNet의 panoptic segmentation 과정 분석

실시간으로 instance segmentation을 수행하기 위한 YOLACT의 아이디어 알아보기

티스토리툴바