1. abstract 전통적인 셀프 어텐션 메커니즘은 이차적(𝑂(𝑛²)) 복잡도를 갖기 때문에 긴 시퀀스에서 확장성이 제한됩니다. 우리는 FFTNet을 소개하는데, 이는 빠른 푸리에 변환(FFT)을 활용하여 𝑂(𝑛 log 𝑛) 시간 복잡도로 글로벌 토큰 혼합을 달성하는 적응형 스펙트럼 필터링 프레임워크입니다. FFTNet은 입력을 주파수 도메인으로 변환함으로써, 파르세발(Parseval)의 정리가 보장하는 직교성과 에너지 보존 특성을 활용하여 장거리 의존성을 효율적으로 포착합니다. 학습 가능한 스펙트럼 필터와 modReLU 활성화 함수를 통해 중요한 주파수 성분을 동적으로 강조함으로써 기존의 셀프 어텐션을 대체할 수 있는 엄밀하고 적응적인 방식을 제공합니다. Long Range Arena 및 I..
우리는 AI 학습할 때 모델을 학습시켜보고 평가하며 안되면 다시 고쳐서 학습시켜보는 과정을 반복함. 그러나 이게 전부일까? 1. 고객 중심 VS. 개발자 중심 조금만 생각해봐도 완벽하게 훈련시키고 평가한 모델을 고객에게 줘봤자 ‘고객이 원하는 것’이 아니라면 좋아하지 않는다는 사실을 알 것 어느 것이 더 좋다는 이야기를 하고 싶은 것이 아니고 여러 관점이 있다는 것을 이해하는 것이 중요하다 고객 중심으로 고객이 원하는 것만 만든다고 잘 만들어지는 것도 아니고 반대로 잘 만들다보면 고객이 원할수도 있는거고 2. 인공신경망의 학습과정은 완벽하게 추상화할 수 없다 보통 생각하기에 AI는 인공신경망에 input을 주면 output이 바로 나오는 인상을 주기 쉬운데 사실 그렇지 않다 심지어 input을 ..
1. ChatGPT의 빛과 어둠 1) 마이크로소프트 빌게이츠 "ChatGPT는 인터넷, PC정도로 중요한 발견이다" 2) 만들어진지 5일만에 100만 유저 달성 3) 이탈리아, ChatGPT의 개인정보 유출문제로 차단 4) 일론머스크, "멈출 수 없는 AI 레이스를 6개월만 쉬어가자" 5) 구글에 "ChatGPT"가 무엇인지 검색하면, 너무 많은 검색 결과를 주지만 ChatGPT한테 물어보면 검색 + 요약 + 설명을 깔끔하게 한번에 해 6) 하지만 아주 간단한 설명도 틀리게 말하는 경우가 많다 2. ChatGPT 이전의 시대 1) RNN - 자연어 처리 모델의 시초 1997년 개발 이후 2010년대까지 꾸준히 사용 한번에 한 단어만 모델에 넣을 수 있어서 병렬화가 불가능하여 학습시간이 매우 오래걸린다는 ..
1. show attend and tell 입력 이미지가 주어졌을때 CNN 모델로 feature를 추출 vector로 만드는 것이 아니라, 14*14의 spatial 정보를 가지는 feature map으로 추출 그리고 feature map과 LSTM의 interaction으로 서로 feedback을 통해 attention할 위치를 추론함 각각 어디를 봐야할지 집중할 위치를 찾아 매 순간마다 단어 단위로 text를 생성 2. visual attention 사람이 이미지를 바라볼때, 전반적인 내용을 한번에 뇌에 담지는 못한다 사람은 이미지를 볼때 한곳에 시선이 오래보고있지 않고 시선을 빠르게 움직이면서 물체를 스캔하는 형태로 물체 인지를 한다. 눈을 훑어보고, 코를 보고 입을 보고 전체적인 모습을 보면서 이..
1. 인공지능의 시대 1-1)ChatGPT 자연어 기반 대화형 AI 매우 뛰어난 성능으로 MBA 시험도 통과할 정도 https://www.nbcnews.com/tech/tech-news/chatgpt-passes-mba-exam-wharton-professor-rcna67036
1. 개요 물체 감지는 한 장의 사진에 포함된 여러 물체에 대해 영역과 이름을 확인하는 작업 이미지의 어디에 무엇이 비치는지 알 수 있다 그림은 물체 감지 결과이다. 왼쪽 그림을 보면 이미지 내에 사람과 말이 있는 것을 알 수 있다. 오른쪽 그림에 사람과 말에 각각 테두리가 표시되어있다. 물체의 위치를 나타내는 테두리를 bounding box(BBox)라고 한다. 테두리의 왼쪽 상단에는 라벨명이 나오고, person:1.00, horse:1.00이 표시되어있다. 라벨명은 감지된 클래스를 보여준다. 사람은 사람으로, 말은 말로 감지되었다. 라벨명 후반의 숫자 1.00,...은 신뢰도(confidence)이다. 신뢰도 수치가 높을수록(최대 1.00) 얼마나 명확하게 감지했는지 알 수 있다. 2. 입력과 출력..
내 블로그 - 관리자 홈 전환 |
Q
Q
|
---|---|
새 글 쓰기 |
W
W
|
글 수정 (권한 있는 경우) |
E
E
|
---|---|
댓글 영역으로 이동 |
C
C
|
이 페이지의 URL 복사 |
S
S
|
---|---|
맨 위로 이동 |
T
T
|
티스토리 홈 이동 |
H
H
|
단축키 안내 |
Shift + /
⇧ + /
|
* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.