1. matrix 정의 1-1) 위키피디아에서는 행렬을 행과 열에 수나 기호 수식 등을 나열한 직사각형의 배열이라고 정의하고 있습니다. 예를 들어 (19−1320516) 1-2) m개의 행과 n개의 열을 가지는 행렬 A는 수학적으로 Amn={aij}라고 표현합니다. 여기서 aij는 행렬 A의 i번째 행에 있고 동시에 j번째 열에 위치하는 원소를 의미합니다. 명백하게 행과 열의 수를 알 수 있다면 A={aij}으로 행,열의 수를 생략하기도 합니다. aij는 간혹 A[i,j]나 Ai,j등등으로..
1. KL divergence에 대하여 The Kullback–Leibler divergence (or information divergence, information gain, or relative entropy)은 두 확률분포를 비교하기 위한 방법이다. 데이터의 진짜 확률분포(true distribution)을 P라 하고 데이터가 따를 것 같다고 생각하는 우리가 예측한 확률분포 모형이 Q라한다면 Q에 대한 P의 The Kullback–Leibler divergence은 $$D _{KL} (P||Q)=E(log \frac{P}{Q} ) _{P} = \sum _{x \subset P} ^{} P(x)log \frac{P(x)}{Q(x)}= \sum _{x \subset P} ^{} P(x)logP(x)-..
1. Entropy는 무엇인가 self information이 하나의 사건에 대한 정보량이면 Entropy는 전체 확률분포가 가지는 정보량이라고 볼 수 있다. 확률변수 M의 Entropy는 M이 가질 수 있는 모든 사건의 평균적인 정보량으로 M의 정보량의 기댓값이다. H(M)=E(I(M))=∑mI(M)P(M=m)=−∑mP(M=m)logP(M=m)=−E(log(P(M)) 확률분포가 가지는 불확실성의 측도이고 확률분포가 가지는 모든 정보량이다. 2. 예시로 알아보는 Entropy 기계 X는 A, B, C, D를 각각 0.25의 확률로 출력 반면, 기계 Y는 A : 0.5, B: 0.125, C: 0.125, D: 0.25의 확률로 출력한다고 가..
1. 정보이론의 핵심 아이디어 잘 일어나지 않는 사건은 자주 발생하는 사건보다 정보량이 많다. 예를 들어보면 ‘아침에 해가 뜬다’는 정보는 누군가에게 알려줄 필요가 없을 정도로 정보 가치가 없다. 그렇지만 ‘오늘은 4시에 피어세션을 시작한다.’는 정보는 꼭 알아야한다는 측면에서 정보량이 많다고 말할 수 있다. 기본적으로 자주 발생하는 사건은 낮은 정보량을 가진다. 100퍼센트 발생이 보장된 사건은 내용에 무관하게 전혀 정보가 없다 덜 자주 발생하는 사건은 더 높은 정보량을 가진다 독립인 사건은 추가적인 정보량을 가진다. 동전을 던져 앞면이 두 번 나오는 사건에 대한 정보량은 동전을 던져 앞면이 한번 나오는 사건보다 정보량이 두배 많다 2. Shannon의 self information 확률변수 M이 어떤..
1. 문제 제기 빅데이터분석기사, ADsP를 공부하면서 p-value에 대한 정의가 이상한 것 같아서 이번 기회에 정리를 해볼려고 한다. 2. p-value에 대한 오해 2-1) p-value가 관측된 검정통계량이 귀무가설을 지지하는 방향으로 관찰될 확률? 2-2) p-value는 제1종오류를 일으킬 확률? 3. p-value의 정의 위키피디아에서 ‘In null hypothesis significance testing, the p-value is the probability of obtaining test results at least as extreme as the results actually observed, under the assumption that the null hypothesis is ..
1. 문제 제기 variance가 높으면 안좋다는 느낌? 이미지?인데 high variance가 overfitting이고 high bias가 underfitting이라는 것이 매칭이 잘 안된다. 2. bias에 대하여 위키피디아에서 ‘bias error는 learning 알고리즘에서 잘못된 가정으로부터 나온 error이다. high bias는 알고리즘이 feature와 target output 사이 관련있는 관계를 놓치도록 만든다. 이것을 underfitting이라고 한다 quora에서 어떤 사람의 답변을 보면 ‘bias는 training data로부터 머신러닝 모델이 학습하는 능력을 평가하는 metric이다. 그래서 high bias를 가진 모델은 training data나 test data 모두에 잘..
내 블로그 - 관리자 홈 전환 |
Q
Q
|
---|---|
새 글 쓰기 |
W
W
|
글 수정 (권한 있는 경우) |
E
E
|
---|---|
댓글 영역으로 이동 |
C
C
|
이 페이지의 URL 복사 |
S
S
|
---|---|
맨 위로 이동 |
T
T
|
티스토리 홈 이동 |
H
H
|
단축키 안내 |
Shift + /
⇧ + /
|
* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.