Loading...
2021. 12. 26. 00:33

softmax function에 대한 진정한 의미

1. 선형모형 $O=XW+b$의 형태, $X$는 input, $W$는 가중치(Weight), $b$는 절편(intercept), $O$는 선형모형에 들어간 $X$의 Output 그림1을 보면 데이터 $X$가 n*d차원에서 선형모형을 통과하면서 n*p차원의 $O$로 바뀜 d개의 input 변수가 가중치의 조합에 의해 p개의 선형 output 변수로 바뀌는 모형 d개의 변수가 가중치에 의한 선형결합으로 각각의 output변수 $O_{1}$,$O_{2}$,...,$O_{p}$가 나옴 2. softmax input 값을 각 class에 속할 확률벡터로 변환해주는 활성화함수 \[softmax(O) = (\frac{exp(O_{1})}{\sum_{k=1}^{p} exp(O_{k})}, \frac{exp(O_{2})..

2021. 11. 20. 20:51

cross entropy loss(=log loss)에 대한 고찰

classification에서 가장 자주쓰는 cross entropy loss에 대해 생각해보면 binary classification의 경우 $$L(y) = -ylog(p)-(1-y)log(1-p)$$ $y$는 true value이고 $p$는 모델이 $y=1$로 예측할 확률이다. 이 cross entropy loss가 자주 쓰이지만 항상 좋은 선택일까?? 예측하고자 하는 데이터가 실제 정답이 y=1인 경우 loss를 계산하면 $$L(y=1)=-ylog(p)=-log(p)$$ 실제 정답이 y=0인 경우는 $$L(y=0)=-(1-y)log(1-p)=-log(1-p)$$ loss가 오직 true value를 예측할 확률에만 의존한다는 것이다. true value가 1일 때 loss의 그래프를 그림으로 나타냈..