1. image 시각적인 인식을 표현한, 혹은 묘사한 인공물(artifact) 시각적인 인식이라는 것은 컴퓨터는 어떻게 표현하는가? 컴퓨터가 이미지를 이해하는 방식을 알고 있어야 이미지를 넣어 모델링하고 분류하는 class를 만들 수 있을 것 2. pixel 이미지를 표현하는 최소단위 Red, Green, Blue의 값이 어느정도 있느냐에 따라 pixel이 가지는 정보, 색깔이 표현 pixel이 많이 모여 하나의 이미지를 이룬다 3. image 저장 방식 width, height, channel 차원의 각 pixel의 R,G,B 값의 array 형태로 저장 channel은 R,G,B 3개 뿐만 아니라 그 이상 4개인 경우도 있다 R,G,B는 0~255까지 dtype = uint8은 unsigned int..
1. motivation 다양한 타입, 형태, 특성을 가지는 데이터를 특별한 제한없이 모두 사용하여 모델을 학습시키는 방법 지금까지는 이미지 하나만을 사용해서 모델을 학습시켜왔지만 사실 사람들은 눈으로 보면서(이미지) 귀로 동시에 듣기(소리)도 하며 맛을 보기 전에도 코로 냄새를 맡는 등 자연스럽게 multimodal을 사용하는 것이 기본이다. 그 외에도 사람들은 social perception, 3D world의 depth perception등 느끼지는 못하지만 실제로는 사용하고 있는 다양한 감각들을 모두 사용하여 학습을 한다. 2. 어려운 점 다양한 형태의 데이터를 사용하여 학습을 하고자하는데 여러 타입의 데이터를 표현하는 방법이 모두 다르다는 것이 문제다. 오디오는 1d signal wa..
1. data preprocessing의 중요성 1-1) introduction 디스크 안에 단순히 파일로 존재하는 데이터(Vanilla data)는 그대로 모델에 쓰기에는 추가적으로 무언가 할 것이 많음 명확히 정의한 문제들을 바탕으로 ‘다양하고 일반화시킬 수 있는 여러 작업들이 병행된’, 그러면서 ‘문제 해결을 위해 나올 수 있는 여러 가능성이나 주제를 적용시킨’ “모델을 위한 dataset”으로 변환이 필요함 이런 모델을 위한 dataset으로 변환을 하고 나서 model training을 진행함 “일반적으로 쓸 수 있는” 데이터를 하나 하나씩 뱉어낼 수 있는 기능을 구현한다면 모델 학습에 무리가 없을 것 dataset 구축의 기본기를 잘 갖춰나야 앞으로 나올 음성, 시계열, 텍스트 등등 엄청 큰 ..
2022/08/22 1. abstract language, vision, multimodal pretraining의 큰 수렴이 부상하고 있다. 이 논문에서는 우리는 일반적인 목적의 multimodal foundation model로 BEiT-3을 소개한다. 이는 vision과 vision language task에서 SOTA 성능을 달성했다. 특히 우리는 3가지 backbone architecture, pretraining task, model scaling up의 3가지 측면에서 커다란 수렴을 달성했다. 우리는 일반적인 목적의 모델링을 위한 Multiway transformer을 소개하고자 하는데, modular architecture로 deep fusion, modality-specific encod..
1. train data의 문제점 neural network는 데이터를 컴퓨터만 이해할 수 있는 지식의 형태로 녹여넣는 모델 데이터를 통해 패턴을 분석하고자하는 것인데 모델이 데이터를 편식하지 않고 전부 가져가면 가장 좋다 그러나 실제 세상의 데이터들은 bias가 많다 우리가 train data로 얻은 이미지들은 사람이 카메라로 찍은 이미지들이다. 사람이 카메라로 찍었다는 것은 당시 유행?에 따라 사람들이 보기 좋게 찍은 bias된 이미지 그러나 실제 세상은 사람들이 보기 좋게 찍은 구도 말고도 여러가지 많다 실제 test time에서는 어떤 image가 들어올지 모른다 이 말이야 train data는 실제 real data 분포에서 아주 극히 일부 sampling된 데이터라고 볼 수 있다 이게 왜 문제..
1. convolution signal processing에서 먼저 나왔다 수학적 정의는 다음과 같다. 변수변환을 이용하면 교환법칙이 성립한다 2. convolution의 실제 계산법 커널을 이미지 상에서 stride만큼 움직여간다 찍은 부분에 대해 element wise product를 수행 이미지에 filter를 찍으면 convolution에 의해 filter의 효과에 따라 픽셀의 조정이 이루어지면서 사진이 흐려지거나 밝아지거나 하게 된다 ' 3. convolution의 기본적인 특징 커널과 input의 channel은 크기가 같아야한다 보통 커널은 5*5같이 크기만 제시되는데 input의 channel에 맞춰서 생각하면 된다. input 하나가 kernel 하나에 맞춰 convolution하면 ou..