'딥러닝' 카테고리의 글 목록 (10 Page)

visual and audio matching modality - SoundNet

1. sound tagging sound를 통해 해당 장면들이 beach인지 classroom인지 어떤 장면인지 알아내는 문제 비디오 프레임과 소리를 받아 무슨 장면인지 tag를 구하는 문제 2. SoundNet 1) 구조 unlabeled video에는 RGB frame과 sound가 혼합되어있음 RGB frame을 object detection과 scene detection을 하는 pretrain된 두 visual recognition network(ImageNet CNN 계열)에 넣는다. visual network는 fix되어 학습되지 않는다. waveform을 CNN계열에 집어 넣어 feature를 뽑는다. 마지막 단에서 2개의 head로 분리되는데 하나는 scene recogni..

format_list_bulleted Computer Vision
· 2024. 5. 2.
textsms

문장 생성의 성능평가 지표2 - bleu score

1. precision과 recall의 문제점 정답문장에 대해 2개의 모델로 예측문장을 얻었다고 해보자. 두번째 모델로 만든 문장의 경우 모든 단어가 정답문장 단어와 매칭이 되는데 순서가 전혀 맞지 않는다는 것이 문제다. 그럼에도 불구하고 precision과 recall은 100% 때로는 언어에서 순서는 매우 중요한데 단어만 맞췄다고 완벽한 번역이라고 볼수있을까? precision과 recall, f-measure는 계산방식으로부터 알 수 있겠지만 오직 부합하는 단어의 수에만 집중하기 때문에 순서정보를 전혀 반영하지 않는다는 것이 문제다. 2. introduction bleu score는 순서를 반영하지 않는다는 precision과 recall의 문제점을 개..

format_list_bulleted NLP
· 2024. 4. 24.
textsms

문장 생성의 성능평가 지표1 - precision and recall, F-score

1. precision and recall translation 후에 생성된 문장이 정확한지 평가할 필요가 있다. 기본적으로 단어를 생성하는 방법은 target 각 단어별 실제 정답과의 softmax loss가 최소화되게 만든다. test data에 대해서도 예측된 단어와 정답인 단어의 softmax loss로 분류 정확도를 계산한다. 이런 논리에 기반하여 정답문장과 예측문장사이 각 단어별 matching count로 정확도를 평가하는 방법을 생각할 수 있다. I love you라는 정답문장을 출력해야하는데 oh I love you를 출력했다고한다면 각 matching count=0이니까 정확도는 0%이다. 그런데 크게 떨어지는 번역품질이라고 보기 어렵다 나쁘지 않은 번역.. 그러니까 0%라고 보기 어렵..

format_list_bulleted NLP
· 2024. 4. 24.
textsms

pooling은 왜 사용하는가?

이미지 사이즈를 줄이거나 fully connected 연산을 대체하기 위해 사용함 (average pooling) input을 filter에 의해 convolution 연산을 하고 pooling을 통해 이미지 사이즈를 줄인 output을 얻는 것이 기본적인 CNN 이미지에 있는 pixel 정보를 압축하면서 이미지 사이즈를 줄인다. max pooling, average pooling 등 여러가지가 있다. 다음은 4*4이미지에서 2*2 max pooling을 적용한 모습 다음은 4*4이미지에서 2*2 average pooling을 적용한 모습 pooling을 사용한 기본적인 CNN 구조

format_list_bulleted Computer Vision
· 2024. 4. 23.
textsms

gray image의 channel은 1이 아니다

그냥 channel이 1이면 gray image이고 channel이 3이면 color image다 라고 생각해왔는데... 파이썬으로 gray image를 불렀을때 channel이 3인데 gray로 나오는 것 보고 갑자기 궁금증이 생겼다 핵심은 image의 channel이 3이면 각각 R,G,B pixel의 value값을 나타내는데, 이들이 합쳐져서 color image가 나온다. 그런데 R,G,B pixel의 value가 모두 동일하면 gray image가 나온다 먼저 color image를 보면 Image.open으로 열어서 torchvision.transforms.ToTensor()로 tensor로 바꾸면 from PIL import Image from torchvision import dataset..

format_list_bulleted Computer Vision
· 2024. 4. 22.
textsms

object detection task, SPP Net, R-CNN, YOLO 간단하게 알아보기

1. Detection 이미지 안에서 원하는 물체에 대한 bounding box를 찾는 문제 가장 먼저 나온 해법으로 R-CNN이 있다 이미지 안에서 Selective search? 등으로 2000개 정도 region을 추출함. 적절하게 동일한 크기로 바꾸고 deeplearning(AlexNet)을 이용하여 feature map을 각각 추출함 그러면 각각에 대하여 svm등으로 무엇인지 분류하면 되겠지 2. SPP Net 처음 나온 R-CNN은 딱 보면 문제가 많았다. 예를 들면 2000개 Bounding box 찾는것도 일이고 , 1개의 input 이미지에 대해 2000개 각각을 deep learning하니까 2000번 돌려야 1개의 input 이미지에 대해 결과를 얻는다는 사실에 2000번 돌리는 것도..

format_list_bulleted Computer Vision
· 2024. 4. 17.
textsms

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

visual and audio matching modality - SoundNet

문장 생성의 성능평가 지표2 - bleu score

문장 생성의 성능평가 지표1 - precision and recall, F-score

pooling은 왜 사용하는가?

gray image의 channel은 1이 아니다

object detection task, SPP Net, R-CNN, YOLO 간단하게 알아보기

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역