Loading...
2022. 11. 4. 17:49

컴퓨터의 근본 원리가 된 finite state machine 개념 익히기

1. definition 특정 input을 받으면 현재 상태에서 특정 상태로 변화하는 일종의 machine 컴퓨터 작동의 기본 원리 동그라미 2개 된 곳은 terminal state input을 받으면 S1에서 시작하고 a를 주면 S2로 간다는 뜻이 아니라 S1에서 a를 받으면 S2로 가는것 S2에서 b를 받으면 S1으로 가는 것이고 c를 받으면 S4(terminal state)로 가는것 2. example - theory of computation 모든 computing 연산은 finite state machine로 나타낼 수 있다. input state에서 algorithm, time, space 등을 받으면 output state로 변화하는 computing 연산 3. example - databa..

2022. 11. 1. 23:18

머신러닝 관점에서 entropy 개념 알아보기

1. entropy를 줄이는 방법 무질서도를 측정하는 측도로 무작위할수록 높은 값을 갖는다. 색이 맞은 완전한 큐브는 단 1가지의 경우의 수(state)를 가지지만 색이 흐트러져 뒤섞인 큐브는 무수히 많은 경우의 수(state)를 가진다. 열역학 제 2법칙은 닫힌 공간에서 엔트로피는 항상 증가하는 방향으로 흐른다는 것이다. 시간이 과거에서 미래로 흐르는 것도 미래가 과거보다 무작위하다는 것을 생각하면 자연스럽다 그러나 공간에 에너지를 투입하는 경우 global하게 닫힌 공간으로 확장하면 엔트로피는 증가하지만 에너지를 투입한 local한 부분에서는 엔트로피를 감소시킬 수 있다 멋진 말로는 부분 공간에서는 시간을 잠깐 거슬러 올라갈 수 있다는것? 색이 흐트러져 뒤섞인 큐브는 무작위로 뒤섞여 엔트로피가 높은 ..

2021. 12. 14. 23:41

연속형 변수를 사용한 decision tree

보통 범주형 변수만 사용가능한 것처럼 decision tree를 설명하지만 decision tree의 구분 feature로 연속형 변수도 사용가능합니다. 방법은 여러 가지가 있는데 하나를 예로 들어 설명하자면 예시 데이터가 위와 같다고 합시다. 구분하고자하는 feature 여기서는 예를 들어 income을 정렬합니다. 그러면 label이 바뀌는 지점이 생기는데 label이 바뀌는 지점의 평균점을 기준값으로 잡습니다. 각각 59.7, 64.9, 84.9 세 지점이 생기는데 각 지점에서 information gain이 최대가 되는 기준지점을 찾습니다. gini 계수를 이용해 계산하면 income이 59.7보다 클때와 작을때로 구분하는 것이 최대라고 합니다. lotsize도 똑같은 방식으로 기준값을 잡고 각 ..

2021. 12. 11. 21:23

예시를 통해 이해하는 decision tree가 생성되는 원리

현재 딥러닝이 분류문제의 기본 상식으로 알려져있지만 이전에 고전적인 머신러닝에서는 decision tree를 이용하여 분류문제를 해결했습니다. decision tree는 주어진 dataset을 class별로 구별해나가는 하나의 tree를 생성하는 모형인데요. 어떤 식으로 구별해나가는지 그 원리를 예를 들어 설명하겠습니다. 주어진 dataset은 여러개의 feature를 가지고 있겠죠? 예를 들면 다음과 같은 dataset을 생각해봅시다. 현재 D1~D14까지 data를 outlook, temperature, humidity, wind라는 feature를 이용하여 target 변수인 play tennis의 yes or no 여부를 구분해야합니다. 현재 구분하기 전에 yes는 9개 있고 no는 5개 있습니다..

2021. 12. 6. 21:04

의사결정나무(decision tree)의 생성 원리

데이터가 무작위로 섞여있는 상태를 생각해봅시다. 이럴 때 우리는 무작위로 선을 그어 빨간색 데이터와 파란색 데이터를 구분하고자 합니다. 어떻게 그어야 가장 잘 분류를 했다고 말할 수 있을까요? 그러니까 빨간색과 파란색을 어떤 선을 그어서 구분을 해야 가장 잘 구분을 했다고 말할 수 있을까요? 직관적으로 한쪽 영역에는 순수하게 파란색만 존재하고 다른쪽 영역에는 순수하게 빨간색만 존재해야겠죠? 무작위로 섞여있는 불순물한 상태(impurity)에서 순수한 데이터들만 존재하도록 (purity) 영역을 구분하는 것이 데이터를 잘 분류한 것입니다. 다른 말로는 불확실하게 데이터가 섞여있는 상태에서 누구라도 확실하게 빨간색과 파란색을 알아볼 수 있도록 만드는 작업이 분류라는 것입니다. decision tree는 이러..

2021. 10. 9. 17:32

정보이론의 기초2 -entropy란?-

1. Entropy는 무엇인가 self information이 하나의 사건에 대한 정보량이면 Entropy는 전체 확률분포가 가지는 정보량이라고 볼 수 있다. 확률변수 $M$의 Entropy는 $M$이 가질 수 있는 모든 사건의 평균적인 정보량으로 $M$의 정보량의 기댓값이다. $$H(M)=E(I(M))= \sum _{m} ^{} I(M)P(M=m)=- \sum _{m} ^{} P(M=m)logP(M=m)=-E(log(P(M))$$ 확률분포가 가지는 불확실성의 측도이고 확률분포가 가지는 모든 정보량이다. 2. 예시로 알아보는 Entropy 기계 X는 A, B, C, D를 각각 0.25의 확률로 출력 반면, 기계 Y는 A : 0.5, B: 0.125, C: 0.125, D: 0.25의 확률로 출력한다고 가..