Loading...
2024. 4. 19. 03:02

Pytorch에서 padding sequence vs. packed sequence 차이 이해하고 구현하기

https://heekangpark.github.io/ml/shorts/padded-sequence-vs-packed-sequence Padded Sequence vs. Packed Sequence | Reinventing the Wheel 문제상황 자연어와 같은 sequence 데이터들을 다루다 보면 짜증나는 요소가 하나 있는데, 바로 그 길이가 일정하지 않다는 것이다. 이미지 데이터의 경우 crop이나 resize 등으로 가로 세로 크기를 맞 heekangpark.github.io 자연어같은 sequence 데이터는 input들의 길이가 다 다른 경우가 보통이기 때문에 이것을 어떻게 처리할 지 고민할 필요가 있다. 이미지는 crop이나 resize로 이미지 크기를 전부 맞추고 진행하면, batch로 ..

2024. 3. 31. 02:11

NLP text data 전처리에서 tokenizing할 때 padding이 필요한 이유

text 데이터는 보통 길이가 서로 달라서 전처리할때 padding을 해서 길이를 맞춰준다고 보통 그러는데 왜 해야할까? 보통 batch형태로 데이터를 만들어서 모델을 학습시키는데, 길이가 서로 다르면 batch가 안만들어진다 데이터셋을 다음과 같이 구현하고 dataloader를 만들어본다 class ChatbotDataset(Dataset): def __init__(self, dataset, tokenizer, max_length = 438): self.tokenizer = tokenizer self.data = dataset self.max_length = max_length def __getitem__(self, i): inputs = tokenizer(self.data[i][1], return_t..

2022. 8. 7. 16:33

css box model 정복하기

1. css의 대원칙 'css의 모든 요소는 박스다' 모든 요소는 네모(박스모델)이고 위에서부터 아래로, 왼쪽에서 오른쪽으로 쌓인다 원으로 생긴것도 자세히보면 박스안에 들어가있고 2. normal flow 기본적으로 inline 요소는 왼쪽에서 오른쪽으로 나아가고 block요소는 위에서부터 아래로 쌓인다 3. box model 모든 html 요소는 box 형태로 되어있다 하나의 box는 네 부분으로 나뉜다. margin, border, padding, content padding과 margin을 구별을 잘 해야하는데 테두리 border를 중심으로 안쪽에 내용물과 테두리 사이 공백이 padding이고 테두리와 바깥 다른 요소 사이 공백이 margin이다 기본적인 요소를 먼저 생성하고 top에 24px; 만..

2022. 2. 4. 22:15

convolution 연산의 stride와 padding

1. stride filter가 매 스텝 convolution할 때마다 다음회에 얼마나 이동할지 2차원의 경우 stride는 2차원이다, (옆으로 얼마나 이동할지 * 아래로 얼마나 이동할지) 2. padding 일반적으로 input, output은 convolution 연산으로 크기가 서로 달라짐 보통은 output이 input보다 차원이 줄어든다 보통 convolution을 하면 input의 가장자리 빨간색 부분의 정보가 짤린다 그렇지만 input의 모든 정보를 가져오는게 좋지 않겠는가 그래서 input과 output의 크기가 동일했으면 하는 마음이 있다 가장자리 주변에 padding을 하여 모든 정보를 가져오도록 만든다 stride=1인 경우 적절한 크기의 패딩을 사용하면 반드시 input과 outp..

2022. 1. 21. 19:59

문자열 출력 포맷팅(format)

1. multiple printing print(a,b,c…)하면 a,b,c를 ,기준으로 1칸씩 띄어서 붙여 출력 띄어쓰기 싫다면 +연산 활용 2. 기본 기호 %d는 정수형, %s는 문자열, %f는 부동소수점(실수형), %c는 문자 1글자(여러 글자면 1글자만 가져오는 것이 아니고 에러남) 3. %포맷팅 %d에 num값 3을 넣고 %s에 string값 ‘nice’를 각각 넣어 출력 4. {}포맷팅 {}방식은 %d나 %s를 따로 쓰지 않아도 된다는 편리함 {}안에 숫자를 넣어 넣어줄 순서를 지정해주기도 함 5. padding %10s라고 쓰면 10자리 공간을 비우고 오른쪽 정렬을 시킴 s=’abc’라고 할 경우 %5s로 포맷팅하면 위 그림과 같이 출력된다 %5.3f를 하면 5자리 비우고 부동소수점을 3자리..