Loading...
2023. 4. 21. 01:39

개발자가 숫자를 0부터 세야하는 이유 - loss function 사용할때 class는 0부터 시작하기(cuda error)

text classification 모델을 training할려고 하는데.. 익숙한 cuda error를 만났다 경험상 정확한 원인은 알 수 없고 tensor 타입이라든지 gpu cpu 안맞다든지.. 등등 여러가지 이유로 발생하는거고 CUDA_LAUNCH_BLOCKING=1 넣어보라는건 아무 효과도 없음 이런 경우는 가장 좋은건 데이터를 하나만 빼서 model에 넣어봐서 output을 하나만 계산해봐야함 그리고 저 에러만나면 런타임 다시 시작해야함 ------------------------------------------------------------------------------ 근데 뭐 여러가지 시도해봄 device에 torch.device("cuda:0")냐 torch.device("cuda")..

2023. 3. 6. 02:33

pytorch tensor 다루기 재활치료 1편 -tensor, broadcasting, max, argmax -

1. 벡터, 행렬, 텐서 차원이 없는 값을 스칼라 1차원으로 구성된 값을 벡터(vector) 2차원으로 구성된 값을 행렬(matrix) 3차원 이상으로 구성된 값은 텐서(tensor) 인간은 3차원 세상에 살고 있다보니 4차원 이상부터는 머리로 상상하기 어렵다. 데이터사이언스에서는 3차원 이상의 텐서는 다차원 행렬이나 배열로 간주할 수 있다. 또한 주로 3차원 이상을 텐서라고 하며, 1차원 벡터나 2차원 행렬도 텐서라고 표현하기도 한다. 1차원 벡터 = 1차원 텐서, 2차원 행렬 = 2차원 텐서, ...... 2. tensor의 shape를 표현하는 방법? 2-1) 2차원 tensor 2차원 텐서의 크기를 (batch size * dim)으로 표현할 수 있다 훈련 데이터 하나의 크기를 256이라고 하자...

2023. 3. 2. 01:29

visual attention + visual & sound modeling 기본 개념 배우기

1. show attend and tell 입력 이미지가 주어졌을때 CNN 모델로 feature를 추출 vector로 만드는 것이 아니라, 14*14의 spatial 정보를 가지는 feature map으로 추출 그리고 feature map과 LSTM의 interaction으로 서로 feedback을 통해 attention할 위치를 추론함 각각 어디를 봐야할지 집중할 위치를 찾아 매 순간마다 단어 단위로 text를 생성 2. visual attention 사람이 이미지를 바라볼때, 전반적인 내용을 한번에 뇌에 담지는 못한다 사람은 이미지를 볼때 한곳에 시선이 오래보고있지 않고 시선을 빠르게 움직이면서 물체를 스캔하는 형태로 물체 인지를 한다. 눈을 훑어보고, 코를 보고 입을 보고 전체적인 모습을 보면서 이..

2023. 2. 27. 03:48

text data를 다루는 NLP + computer vision과의 활용 - image captioning 기본 배우기1

1. multi-modal learning 서로 다른 타입의 데이터를 같이 활용하는 학습 방법 이미지와 텍스트나 사운드를 같이 활용해서 학습할 수 있을까? 데이터라 하면 사람의 오감에서 얻는 정보나 social perception으로 불리는 사회적 감각에 의한 정보..(눈치) 3d sensor에서 얻은 정보나.. 예를 들어 text 하나의 데이터만 다루는 형태는 unimodal 이미지와 audio를 같이 활용한 학습이라면 multimodal 형태 2. multi-modal learning은 왜 어려운가 지금까지 배운 방식으로 image데이터라면 CNN에 넣어서 학습하고 text라면 RNN에 넣어서 학습해서 합치면 그만 아닌가? 일단 데이터마다 컴퓨터가 이해할 수 있도록 표현하는 방식이 다르다. 1) 소리..

2023. 2. 27. 01:37

컴퓨터 비전 기본 개념 복기하기

1. 시각 지각능력이 왜 중요한가 인간이 처리하는 대부분의 데이터는 오감을 통해 들어온다. 오감 = 센서 이로부터 취득한 데이터를 뇌에서 프로세싱하여 정보로 사용함 오감중 가장 많은 정보량을 차지하는 것은 시각이다 인간의 75%정보는 눈으로부터 들어옴 귀에 이어폰을 꽂고 돌아다니는건 불편하지 않지만, 눈을 감고 돌아다니면 상당히 불편함을 느낌 2. 인간이 세상을 인식하는 방법 시각적 세상이 주어질때, 눈을 통해 세상을 인지하고 그렇게 받은 신호를 뇌에 보내서 이를 기반으로 정보 해석 3. 컴퓨터가 세상을 인식하는 방법 사람의 눈 = 카메라, 사람의 뇌 = GPU, AI, 알고리즘 시스템 카메라로 촬영된 시각 데이터를 GPU에 올려서 알고리즘을 이용해 프로세싱을 하고 understanding이 이루어지면서..

2023. 2. 24. 03:45

딥러닝 모델 학습의 기본 개념 복기하기

1. 기계학습 구성 요소 경험사례, 모델, 평가기준 인공신경망 같은 모델을 학습시키고자 한다면..? 많은 경험사례를 통한 반복학습 입력과 기대하는 출력의 pair를 반복적으로 보여줌 모델한테 보여주는건 좋은데 모델이 학습을 잘 하고있는지 기준이 필요함 학습을 못하고있으면 잘하도록 만들어야하니까 이러한 평가 기준이 cost(loss function) 2. 가장 좋은 모델 f를 찾는 방법? 기대하는 출력과 모델이 데이터를 보고 낸 출력 사이 차이가 최소화가 되도록 하는 모델을 찾는 것 기대하는 출력과 모델이 낸 출력 사이 차이를 최소화시키도록 만드는 방향으로 학습 3. 예시로 이해하는 기계학습 시간의 흐름과 주가와의 관계를 파악 시간을 넣어주면 모델이 해당하는 기댓값 주가를 출력 과거의 결과가 다음같이 나온..