Loading...

YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors

2022/07/06 1. abstract YOLOv7은 GPU V100에서 30FPS 이상의 속도를 가지는 현재 알려진 모든 real time object detector의 성능을 속도측면에서 5FPS ~ 160FPS까지 뛰어넘었고, 최고 정확도 56.8%AP를 달성했다. YOLOv7-E6 object detector(56FPS V100, 55.9%AP)는 transformer 기반의 SWIN-L, Cascade-Mask R-CNN을 509% 속도차이와, 2% 정확도 차이로 뛰어넘었고, convolutional 기반의 detector인 ConvNeXt-XL과 Cascade-Mask R-CNN을 551% 속도차이와 0.7%AP 정확도 차이로 뛰어넘었다. YOLOv7은 YOLOR, YOLOX, scaled-..

2022. 8. 30. 02:31

Image as a Foreign Language: BEiT pretraining for all vision and Vision language tasks

2022/08/22 1. abstract language, vision, multimodal pretraining의 큰 수렴이 부상하고 있다. 이 논문에서는 우리는 일반적인 목적의 multimodal foundation model로 BEiT-3을 소개한다. 이는 vision과 vision language task에서 SOTA 성능을 달성했다. 특히 우리는 3가지 backbone architecture, pretraining task, model scaling up의 3가지 측면에서 커다란 수렴을 달성했다. 우리는 일반적인 목적의 모델링을 위한 Multiway transformer을 소개하고자 하는데, modular architecture로 deep fusion, modality-specific encod..

diffusion-based time series imputation and forecasting with structured state space models

2022/08/19 1. abstract 결측치를 채워넣는 것은, 많은 현실세계 데이터분석 파이프라인에서 상당한 장애물로 나타난다. 여기 우리는 time series data에 집중하여 SSSD라는 imputation model을 제시한다. 이는 2개의 급부상한 기술인 conditional diffusion model(SOTA generative model)과 내부 아키텍처로 structured state space model을 사용하는데 이 space model은 특히 time series data의 long-term dependency를 포착하는데 적합하다. 우리는 SSSD가 SOTA probabilistic imputation을 뛰어넘고 다양한 데이터셋에서 예측 성능이 뛰어나며 이전에 여러 접근법들..

An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion

2022/08/02 1. abstract text-to-image 모델은 자연어로부터 창조를 알려주는 전례없는 자유를 제공합니다. 그러나 어떻게 그러한 자유가 특별한 개념에 대한 이미지를 만들어낼 수 있는지, 불분명합니다. 다시 말해 우리는 어떻게 우리가 cat을 그림으로 만드는 language guided model을 만들 수 있는지 물어보았습니다. 여기 우리가 그러한 창의적인 자유를 따라갈 수 있는 간단한 접근을 제시합니다. 물체나 스타일같은 유저가 제공한 개념에 대한 3~5가지 이미지를 사용해서 우리는 model의 embedding space에 새로운 단어를 나타내는 방법을 배웁니다. 이러한 words들은 자연어 문장으로 구성될 수 있고, 직관적인 방법으로 창조를 알려줍니다. 주목할만한 점은 우리는..

Cold Diffusion: Inverting Arbitrary Image Transforms Without Noise

2022/08/19 1. abstract #### Diffusion Models are generative models, meaning that they are used to generate data similar to the data on which they are trained. #### 보통의 diffusion model은 가우시안 노이즈를 더하고 이미지 복구 연산(image restoration operator)을 사용하는데, 이 연산이 degradation을 유발한다. 우리는 diffusion model의 생성하는 행동(generative behavior)이 image degradation(이미지의 화질을 떨어뜨림)에 강하게 의존하지 않는다는 점을 발견했고, 사실은 전체 생성 모델들이 이러한 i..

2022. 8. 23. 02:58

A Library For Representing Python Programs as Graphs for Machine Learning

2022/08/15 1. abstract 프로그램의 그래프 표현은 code research를 위한 머신러닝에서 중요한 요소이다. 우리는 python 라이브러리로 python_graphs라는 오픈소스 라이브러리를 소개한다. 이것은 파이썬 프로그램의 그래프 표현을 구성하기 위한 정적인 분석을 적용하여 머신러닝 모델을 훈련시키기에 적합하다. 우리의 라이브러리가 control flow graphs, data flow graphs를 만들 수 있고, control-flow, data-flow, syntactic, lexical information을 모두 종합하여 만든 program graph를 만들 수 있다. 우리는 라이브러리의 능력과 한계점을 제시했고, 수백만의 경쟁력 있는 프로그래밍 코드에 라이브러리를 적용해..