'softmax' 태그의 글 목록

knowledge distillation 자세하게

1. background “model training과 deployment 단계에서 필요한 parameter는 다르다” 애벌레가 번데기가 되려면 다양한 환경에서 에너지와 영양소를 잘 흡수할 수 있어야함 그러나 번데기에서 나비로 어른이 될 때는 이와는 매우 다른 traveling, reproduction에 대한 요구사항이 필요함 이 때는 영양소를 흡수하는데 주력하기보다는 몸도 가볍고 생식도 잘하도록 최적화되어야함 머신러닝도 이와 마찬가지임 training 단계와 deployment 단계에서 필요로하는 요구사항이 완전히 다르다는 것임 training단계에서는 애벌레가 번데기가 되기위해 에너지를 잘 흡수하던것 처럼 주어진 대용량의 데이터로부터 구조와 지식을 잘 흡수해야함 deployment 단계에서..

format_list_bulleted light weight modeling
· 2024. 9. 24.
textsms

통계적 모델링과 최대가능도추정법(Maximum likelihood estimation) 간단하게

1. 통계적 모델링 적절한 가정 위에서 확률분포를 추정하는 것 유한한 개수의 데이터만 보고 정확한 모집단의 분포를 아는 것은 불가능하므로 근사적으로 추정함 예측모형의 목표는 분포를 정확하게 맞추는것보다 데이터와 추정방법의 불확실성을 고려하여 위험을 최소화하는 것이다. 데이터가 특정 확률분포를 따른다고 선험적으로 가정하고 분포를 결정하는 방법론은 모수적 방법론 특정 확률분포를 가정하지 않고 데이터에 따라 모델의 구조 및 모수의 개수가 유연하게 바뀌면 비모수적 방법론 비모수적 방법론은 모수를 안쓴다는 것이 아니라 특별한 확률분포를 가정하지 않는 것이다. 기계학습의 대부분은 비모수적 방법론이다. 확률분포는 어느정도 가이드라인이 있다고는 하는데 큰 의미는 없다.. 데이터를 생성한 원리나 전체적인 형태 등을 전부..

format_list_bulleted 다시보는 통계학
· 2024. 1. 3.
textsms

Vanilla RNN에서 hidden vector로 예측값을 만드는 과정

hidden vector의 차원은 hyperparameter이다. 여기서는 2차원이라고 가정해보자. 3차원의 입력벡터 $X_{t}$ 가 들어가고 2차원의 hidden state vector인 $h_{t-1}$ 이 RNN의 입력으로 들어간다고 해보자. 처음에는 $X_{t}$ 와 $h_{t-1}$ 이 concatenation되어 hidden layer에 fully connected 된다. 당연하지만 $h_{t-1}$ 이 2차원이기때문에 $h_{t}$ 를 뽑아내는 layer의 차원도 2차원이다. hidden layer의 선형변환 W와 입력벡터의 곱 WX에 nonlinear activation인 tanh(WX)로 $h_{t}$ 가 뽑힌다. Vanilla RNN이 실제로 tanh()를 activate function으로 썼다..

format_list_bulleted NLP
· 2023. 7. 11.
textsms

확률분포&연속형분포의 이산화&조건부분포&기댓값으로 구하는 통계량

1. 확률분포 $x \times y$ 라는 데이터 공간에서 D는 데이터를 만들어내는 하나의 확률분포이다. 이로부터 얻어낸 데이터는 하나의 확률변수로 $(x,y) \sim D$ 이다. 확률분포에 따라 데이터의 이산형, 연속형이 결정된다. 데이터 상태가 실수이냐 정수이냐랑은 크게 무관하다. 확률분포는 이론적으로 존재하며 단순히 데이터만 보고는 무슨 확률분포를 따르는지는 알 수 없다. -------------------------------------- 확률질량함수는 이산형확률변수의 확률함수로 그 값 자체가 확률이다. 확률변수가 공간 A에서 가질 수 있는 모든 경우의 수를 고려한 확률의 합으로 구해진다. ------------------------------------- 확률밀도함수는 연속형확률변수의 확률함수지만..

format_list_bulleted 딥러닝 기초
· 2022. 6. 2.
textsms

softmax function에 대한 진정한 의미

1. 선형모형 $O=XW+b$ 의 형태, $X$ 는 input, $W$ 는 가중치(Weight), $b$ 는 절편(intercept), $O$ 는 선형모형에 들어간 $X$ 의 Output 그림1을 보면 데이터 $X$ 가 n*d차원에서 선형모형을 통과하면서 n*p차원의 $O$ 로 바뀜 d개의 input 변수가 가중치의 조합에 의해 p개의 선형 output 변수로 바뀌는 모형 d개의 변수가 가중치에 의한 선형결합으로 각각의 output변수 $O_{1}$ , $O_{2}$ ,..., $O_{p}$ 가 나옴 2. softmax input 값을 각 class에 속할 확률벡터로 변환해주는 활성화함수 \[softmax(O) = (\frac{exp(O_{1})}{\sum_{k=1}^{p} exp(O_{k})}, \frac{exp(O_{2})..

format_list_bulleted 딥러닝 기초
· 2021. 12. 26.
textsms

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

knowledge distillation 자세하게

통계적 모델링과 최대가능도추정법(Maximum likelihood estimation) 간단하게

Vanilla RNN에서 hidden vector로 예측값을 만드는 과정

확률분포&연속형분포의 이산화&조건부분포&기댓값으로 구하는 통계량

softmax function에 대한 진정한 의미

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역