Loading...
2022. 11. 5. 17:01

경량화 모델하면 가장 먼저 떠오르는 MobileNetV1의 핵심 아이디어

1. idea MobileNet v1의 핵심 아이디어는 depthwise separable convolution 일반적인 convolution 연산을 2단계로 분리하여 depthwise convolution을 수행하고 pointwise convolution을 수행 계산량이 일반적인 convolution에 비해 줄어드는데 정확도는 오히려 좋아지거나?? 아주 조금 손해를 보는 정도 2. 일반적인 convolution M channel 커널이 M channel input에 한번에 convolution을 수행함 원래 depthwise separable이 연산량이 높을수도 있다고 생각했는데 지금부터 항상 감소한다는 것을 증명할 것이다. kernel size를 $D_{k} \times D_{k}^{'}$, inpu..

2022. 10. 31. 15:17

panoptic segmentation을 위한 UPSNet의 아이디어

1. panoptic segmentation 기존 instance segmentation이 이미지의 배경에는 관심이 없어서 배경에 특별히 관심이 있는 경우에는 오히려 semantic segmentation이 유리했다 근데 문제는 배경에도 관심이 있으면서 서로 다른 물체를 구분하고 싶은 경우도 있을 수 있다. semantic segmentation은 같은 클래스의 서로 다른 물체를 구분하지 못한다. panoptic segmentation은 배경 정보도 구분하며 같은 클래스더라도 서로 다른 물체라면 구분하는 더욱 진화된 기술이다. 2. UPSNet 2-1) 기본구조 feature pyramid network로부터 고해상도 feature map을 뽑는다 semantic head와 instance head로 들..

2022. 10. 31. 00:31

실시간으로 instance segmentation을 수행하기 위한 YOLACT의 아이디어 알아보기

1. YOLACT 1-1) motivation Mask R-CNN은 region proposal을 수행하고 segmentation을 수행하는 two stage 구조로 조금 느려 real time instance segmentation을 수행하기 위한 single stage 구조의 모델이 등장 1-2) 구조 feature pyramid network 구조를 사용하여 고해상도 feature map을 뽑는다 Mask R-CNN이 비효율적으로 실제 쓰지 않더라도 하나의 bounding box에 대해 모든 class의 마스크를 일단 만들었는데 Protonet을 사용하여 mask의 prototype(soft segmentation component)을 일단 만든다는 것이 핵심이다 효율적으로 생성하기 위해 proto..

2022. 10. 21. 16:42

instance segmentation과 mask R-CNN알아보기

1. instance segmentation의 기본 그 동안 배운 object detection, semantic segmentation은 2018년 이후 연구를 잘 안하는 추세 instance segmentation과 panoptic segmentation으로 고도화되었기 때문에 semantic segmentation의 한계점으로 서로 다른 물체더라도 같은 class에 속하면 같은 색으로 구분한다는 것이었다. 이것을 극복하고 서로 다른 물체라면 같은 class더라도 다른 색으로 구분하는 기술이 instance segmentation이다. 서로 다른 물체라면 구분한다는 점에서 응용가능성이 더 높다 파이썬의 instance개념처럼 서로 다른 instance를 구분하겠다는 것이다. instance segme..

2022. 8. 30. 02:31

Image as a Foreign Language: BEiT pretraining for all vision and Vision language tasks

2022/08/22 1. abstract language, vision, multimodal pretraining의 큰 수렴이 부상하고 있다. 이 논문에서는 우리는 일반적인 목적의 multimodal foundation model로 BEiT-3을 소개한다. 이는 vision과 vision language task에서 SOTA 성능을 달성했다. 특히 우리는 3가지 backbone architecture, pretraining task, model scaling up의 3가지 측면에서 커다란 수렴을 달성했다. 우리는 일반적인 목적의 모델링을 위한 Multiway transformer을 소개하고자 하는데, modular architecture로 deep fusion, modality-specific encod..

2022. 5. 16. 21:04

불균형 데이터에 효과적인 Focal loss

1. motivation single stage detector들은 ROI pooling이 없어서 모든 영역을 고려하여 gradient를 계산(모든 영역에서 loss가 발생) 이미지 내 물체라는 것은 사실 몇개 없다 그래서 물체를 포함하는 positive sample bounding box보다 물체를 포함하지 않은 negative sample bounding box가 압도적으로 많은 경우가 빈번하다 왜 문제냐면 negative sample bounding box는 실제 물체에 대한 유용한 정보가 없는데 이게 너무 많다는 것이 비효율적 대부분의 single stage detector들이 이런 문제가 있다고 보면 됨 2. focal loss cross entropy인 $-log(p_{t})$의 확장형으로 $..