'bert' 태그의 글 목록 (2 Page)

2023. 4. 21. 01:39

개발자가 숫자를 0부터 세야하는 이유 - loss function 사용할때 class는 0부터 시작하기(cuda error)

text classification 모델을 training할려고 하는데.. 익숙한 cuda error를 만났다 경험상 정확한 원인은 알 수 없고 tensor 타입이라든지 gpu cpu 안맞다든지.. 등등 여러가지 이유로 발생하는거고 CUDA_LAUNCH_BLOCKING=1 넣어보라는건 아무 효과도 없음 이런 경우는 가장 좋은건 데이터를 하나만 빼서 model에 넣어봐서 output을 하나만 계산해봐야함 그리고 저 에러만나면 런타임 다시 시작해야함 ------------------------------------------------------------------------------ 근데 뭐 여러가지 시도해봄 device에 torch.device("cuda:0")냐 torch.device("cuda")..

2022. 12. 31. 01:14

비전공자도 이해할 수 있는 AI지식 -기계는 언어를 이해할 수 없는가-

1. 언어를 이해한다는 것은 무슨 말인가 그렇다면 이루다도 GPT같은 언어 생성 모델을 기반으로 하는 챗봇이었을까요? 컨퍼런스에서 이루다의 기술을 발표한 자료에 따르면, 이루다는 언어 생성 모델을 활용한 것이 아닙니다. 이루다에 적용한 것은 대화를 이해하고 여러 개의 응답 중 가장 적절한 응답을 선택하는 이해 모델에 좀 더 가깝습니다. 이루다의 원리를 이해하기 위해서는 먼저 언어를 이해한다는 것이 과연 무엇을 의미하는지부터 알아야합니다. "백두산의 높이는 얼마야?" 검색엔진에 질문을 입력하면 바로 정답을 찾아주는 경우가 있습니다. "백두산의 높이는 얼마야?"라고 질문하면 관련 문서에서 2744m라고 정답을 바로 찾아냅니다. 정답을 한번에 찾아낸다는 점에서 유사한 문서를 찾아내는 검색엔진과는 조금 다른 기..

2022. 11. 1. 23:55

비전공자도 이해할 수 있는 AI지식24 -검색엔진을 최적화하려는 노력-

1. 랭킹에 올라가느냐, 방어하느냐 창과 방패의 싸움 구글이나 네이버의 검색 결과에서 상위를 차지하면 엄청난 트래픽을 가져올 수 있습니다 특히 돈에 관련한 쿼리라면 더더욱 그렇죠 예를 들어 네이버에 '꽃배달'이라는 쿼리를 입력했을때, 1등으로 올라오는 사이트가 있다면, 엄청난 매출을 기대할 수 있겠죠? 그래서 '검색엔진 최적화, SEO, Search Engine Optimization'를 시도하는 업체들은 여러가지 실험을 해보면서 랭킹을 높이기 위해 끊임없이 도전합니다 구글에는 200여가지 랭킹 조건이 있는데 검색엔진 최적화는 이들 조건 사이에서 바늘구멍같은 빈틈을 찾아 랭킹을 올리기 위해 끊임없이 노력하는 거죠 이를 위해 다양한 수단을 동원합니다. 다양한 메타 태그를 부여해보기도 하고, 인기있는 키워드..

2022. 10. 28. 16:18

NLP에서 경량화를 시도하려는 연구들 알아보기

1. trend GPT,BERT,ELECTRA 등의 괴물 모델은 size를 키우면서 압도적인 성능을 냈지만 pre-training 시키는데만 많은 계산량, GPU resource 등이 너무 많이 필요하다. 그래서 일반인들이 다양한 연구나 현업에서 사용하기에는 쉽지 않다. 기존의 큰 모델의 성능을 거의 유지하면서도 계산속도나 메모리 사용량에서 개선시키는데 초점을 두어 경량화 연구가 진행되고 있다. 심지어 소형 device 휴대폰에도 모델을 돌릴 수있게 만든다고???? 2. knowledge distillation https://arxiv.org/pdf/1503.02531.pdf https://light-tree.tistory.com/196 딥러닝 용어 정리, Knowledge distillation 설명과..

2022. 10. 26. 10:03

GAN의 원리에 착안한 ELECTRA와 학습하지 않아도 응용을 잘하는 GPT-3

1. GPT-3 1-1) introduction 특별한 구조 변경없이 GPT-2에 비해 비교할 수 없을 정도로 self-attention block을 늘려 parameter수를 압도적으로 늘렸다. 더욱 많은 데이터와 더욱 큰 batch size를 사용함 GPT-2와는 model size 격차가 엄청나다. 1-2) few shot learner GPT-3가 놀라운 점은 GPT-2가 보여주었던 zero shot learning의 가능성을 높은 수준으로 끌어올렸다는 점이다. pre-train한 GPT-3에게 여러가지 setting에서 번역 task를 수행시켰다. 여기서 translation 데이터는 전혀 학습하지 않았다. 먼저 task description으로 ‘Translate English to Frenc..

2022. 10. 25. 13:48

BERT의 Transfer learning 활용 예시 알아보기

1. BERT의 transfer learning pre-training으로 masked language modeling과 next sentence prediction을 동시에 수행한다. pre-training한 BERT는 down stream task를 위해 적절하게 초기화된 가중치를 갖고 이를 바탕으로 여러 task를 수행 2. sentence pair classification & single sentence classification sentence pair classification은 entailment prediction을 생각할 수 있을 것 같고 single sentence classification은 sentiment classification을 생각할 수 있을듯? sentence pair ..

통계학 세상

통계학 세상

통계학 세상

개발자가 숫자를 0부터 세야하는 이유 - loss function 사용할때 class는 0부터 시작하기(cuda error)

비전공자도 이해할 수 있는 AI지식 -기계는 언어를 이해할 수 없는가-

비전공자도 이해할 수 있는 AI지식24 -검색엔진을 최적화하려는 노력-

NLP에서 경량화를 시도하려는 연구들 알아보기

GAN의 원리에 착안한 ELECTRA와 학습하지 않아도 응용을 잘하는 GPT-3

BERT의 Transfer learning 활용 예시 알아보기

카테고리

블로그메뉴

공지사항

최신글

최신댓글

글 보관함

링크

방문자수

티스토리툴바

개발자가 숫자를 0부터 세야하는 이유 - loss function 사용할때 class는 0부터 시작하기(cuda error)

비전공자도 이해할 수 있는 AI지식 -기계는 언어를 이해할 수 없는가-

비전공자도 이해할 수 있는 AI지식24 -검색엔진을 최적화하려는 노력-

NLP에서 경량화를 시도하려는 연구들 알아보기

GAN의 원리에 착안한 ELECTRA와 학습하지 않아도 응용을 잘하는 GPT-3

BERT의 Transfer learning 활용 예시 알아보기

카테고리

블로그메뉴

공지사항

최신글

태그 클라우드

최신댓글

글 보관함

링크

방문자수

티스토리툴바