Loading...
2024. 3. 31. 02:11

NLP text data 전처리에서 tokenizing할 때 padding이 필요한 이유

text 데이터는 보통 길이가 서로 달라서 전처리할때 padding을 해서 길이를 맞춰준다고 보통 그러는데 왜 해야할까? 보통 batch형태로 데이터를 만들어서 모델을 학습시키는데, 길이가 서로 다르면 batch가 안만들어진다 데이터셋을 다음과 같이 구현하고 dataloader를 만들어본다 class ChatbotDataset(Dataset): def __init__(self, dataset, tokenizer, max_length = 438): self.tokenizer = tokenizer self.data = dataset self.max_length = max_length def __getitem__(self, i): inputs = tokenizer(self.data[i][1], return_t..

2022. 8. 30. 02:31

Image as a Foreign Language: BEiT pretraining for all vision and Vision language tasks

2022/08/22 1. abstract language, vision, multimodal pretraining의 큰 수렴이 부상하고 있다. 이 논문에서는 우리는 일반적인 목적의 multimodal foundation model로 BEiT-3을 소개한다. 이는 vision과 vision language task에서 SOTA 성능을 달성했다. 특히 우리는 3가지 backbone architecture, pretraining task, model scaling up의 3가지 측면에서 커다란 수렴을 달성했다. 우리는 일반적인 목적의 모델링을 위한 Multiway transformer을 소개하고자 하는데, modular architecture로 deep fusion, modality-specific encod..

2022. 2. 9. 19:28

파이썬에서 파일을 처리하는 방법

1. 파일(file) 기본적으로 text 파일과 binary 파일로 나뉨 text파일은 인간이 이해할 수 있는 문자열로 저장된 파일, txt파일, 파이썬 코드파일, html파일 binary파일은 컴퓨터만 이해하는 이진법 형식의 파일, 엑셀,워드 binary파일은 메모장으로 열면 깨져보인다 컴퓨터는 text파일을 binary로 변환하여 처리한다. 그래서 모든 text파일도 binary파일이다 이런 변환 규칙을 정한 여러 표준이 있다. 아스키코드, utf8,utf16 등 2. 파일을 처리하는 방법 open(‘파일이름’,’모드’)를 이용함 r:읽기모드 , w:쓰기모드, a:추가모드 2-1) read() read()를 이용하여 읽기모드 파일의 내용을 전부 읽어와 하나의 문자열로 반환 read로 파일의 내용을 전..

텍스트마이닝(Text Mining)과 정보검색(information retrieval)이란?

1. text mining KDD,WSDM,ICWSM,CIKM 등에서 연구 선도 빅데이터 분석의 한 종류 대규모의 텍스트 데이터로부터, 예를 들면 과거 1년간 몇백만건의 뉴스기사를 모아 거기서 나타난 뉴스들의 키워드를 시간순으로 나열하여 (AI트렌드,상품트렌드)트렌드를 분석함 혹은 유명인의 이미지 변화를 분석함 회사에서 출시한 상품에 관한 리뷰들을 키워드로 분석하여 소비자 반응을 알아봄 서로 다른 단어지만 비슷한 의미를 가지는 키워드들을 그룹화한 document clustering, topic modeling sns 빅데이터를 분석하여 신조어 현황을 파악하여 사회 전반적인 현상을 파악, social science에 대한 insight를 얻음 예를 들어 sns에 ‘혼밥’이라는 단어가 다수 등장한다는 것은 ..