Loading...
2023. 12. 5. 01:37

5장 데이터는 어떻게 정보가 되는가

1. 데이터에서 쓸모있는 정보를 찾아내는 것은 쉽지 않다 사람들은 합리적인 의사결정을 위해서 데이터를 찾는다. 인터넷 브라우저나 스마트폰의 네이버 지도에서 맛집을 검색하면 여러 유용한 정보를 쉽게 찾을 수 있다. 우리는 그 동네의 식당 명단과 함께 별점, 방문자와 블로거의 논평 같은 '정보'를 기반으로 이번 주말에 친구들과 갈 음식점을 정한다. 정부도 데이터를 구한다. 2020년 대한민국 통계청이 발표한 인구주택총조사에 따르면 1인 가구 비중은 전체 가구 수의 31.7%이며 점점 증가하는 추세에 있다. 1인 가구 중 20대는 19.1%, 70대 이상이 18.1%라고 한다. 이 정보를 바탕으로 정부는 1인 가구에 대한 사회보장 정책을 세운다. 그렇다면 데이터는 곧 정보일까? 정리되지 않은 데이터는 쓰레기 ..

2023. 11. 30. 00:19

3장 점술가의 데이터 사용법, 4장 데이터 없이는 통계도 없다

1. 점술가가 미래를 예측하는 방법 사람들은 마음을 의지하고 싶거나 그저 재미로 종종 점집을 찾는다. 점술가가 자신의 과거, 현재, 미래를 꿰뚫어 보았다는 누군가의 증언이 있으면 더 솔깃해진다. 고객의 생김새, 행동거지, 옷매무새 등과 짧은 대화만으로 그의 특성을 단시간에 파악하고 엇비슷한 부류의 전형적인 고민거리와 배경을 빠르게 도출해내는 점술가가 유려한 언변과 태도, 유연한 대응, 여기에 손님들의 '생존자 편향'이 더해진다면 '용한 점술가'가 탄생할 수 있다. 생존자 편향이란 좋은 경험만 공유하고, 좋지 않은 경험은 함구하는 경향을 말한다. 영민한 점술가는 본인이 의도하지 않더라도 통계의 가장 기본적인 얼개를 이용한다. 자신의 상담 경험과 기존 사례들(이를 데이터로 볼 수 있다)을 기반으로 지금 눈앞..

2023. 11. 29. 00:09

2장 도박사의 판돈 나누기

1. 갑자기 도박이 중단되었을 때 17세기 프랑스의 한량이었던 앙투안 공보는 한창 도박을 즐기던 도중에 오늘날 '판돈 나누기'라고 불리는 문제에 직면했다. 앙투안 공보의 문제를 현대적으로 각색하면 다음과 같다. 한국의 프로야구는 매년 한국시리즈라는 7전 4선승제의 결승전을 치른다. 만약 올해의 한국시리즈에는 LG 트윈스와 KT wiz가 진출해 1차전은 kt가 승리, 2차전은 LG가 승리 3차전, 4차전을 KT가 다시 승리했다고 하자. 이 때, 코로나 바이러스의 창궐로 한국시리즈는 중단되고 남은 경기는 취소가 결정되었다. KT는 우승까지 단 1경기 남았고 현재까지 이기고 있으니 상금 10억원을 받아야한다고 주장한다. LG는 우리가 우승할 가능성이 여전히 남아있으니 공평하게 5억원씩 나눠야한다고 한다. 이런..

2023. 11. 28. 01:51

1장 확률의 정의 - 도박과 동전 던지기, 라플라스

1. 확률 - 앞으로 벌어질 사건에 대한 믿음 확률은 인류의 역사만큼이나 오래된 도박과 함께 등장했다. 도박이란 그 결과를 미리 알 수 없는 행위에 따라 승부가 결정된다. 예를 들어 동전 던지기와 주사위 굴리기처럼 앞으로 벌어질 사건에 대한 가능성이나 우리의 믿음을 숫자로 표현한 것이 곧 확률이다. 어떤 사건이 벌어질 가능성이 클수록 100%에 가까운 확률이 생기고, 반대로 가능성이 작을수록 0%에 가까운 확률이 발생한다. 이를테면 정육면체 주사위를 굴려 1이 나올 가능성은 다른 5개의 숫자가 나올 가능성과 같다. 쉽게 말해 1부터 6까지 모든 숫자가 나올 가능성이 같으므로, 그 가능성을 수로 표현한 확률 역시 모두 같은 것이다. 따라서 주사위 굴리기의 결과가 1일 확률은 1/6으로 16.7%이다. 한국..

2023. 1. 5. 01:06

비전공자도 이해할 수 있는 AI지식 -내비게이션이 최단거리를 찾는 방법-

1. 다익스트라, 최단거리를 탐색하게 해주다 강남역의 교통 체증 여부를 예측했으니, 이제 내비게이션으로 최적의 경로를 찾을 일만 남았습니다. "강남역으로 안내해줘"라는 명령에 따라 내비게이션은 과연 어떻게 강남역까지 최적의 경로를 찾을 수 있을까요? 최단 경로를 찾는 알고리즘 중에서 가장 유명한 것은 아마 다익스트라 알고리즘(Dijkstra's Algorithm)일 것입니다. 네덜란드의 컴퓨터 과학자 에츠허르 데이크스트라가 대학원생이던 1956년 여자친구와 함께 커피숍에 갔다가 20분만에 고안해서 만든 알고리즘으로 알려져 있습니다. 커피숍에서 냅킨에 적을 수 있을 만큼, 단순한 법칙이 가장 뛰어나다는 오컴의 면도날을 증명하는 대표적인 알고리즘이기도 합니다. 물론 당시에 그는 이렇게 단순한 경로 계획 알고..

2023. 1. 4. 00:21

비전공자도 이해할 수 있는 AI지식 -단순한 머신러닝 모델의 강력한 힘-

1. 의사결정나무, 단순하지만 강력하다 강남역의 교통 체증을 예측하는 가장 간단한 방법은 조건에 따라 분기하는 모델인 의사결정나무를 만드는 겁니다. 우리가 어릴 때 하던 스무고개놀이와 비슷합니다. 스무고개놀이란 말 그대로 예 혹은 아니오로 답할 수 있는 질문을 스무번 제시하여 정답을 알아맞히는 놀이입니다. 질문의 횟수는 적을수록 좋습니다. 그렇다면 가급적 정답을 빨리 맞힐 수 있는 질문을 제시해야겠죠. 어떻게 질문을 구성해야 할까요? 2. 정답을 가장 빨리 찾는 질문은...? 의사결정나무를 구축할 때는 복잡도인 엔트로피(entropy)를 낮추는 형태로 진행합니다. 복잡도는 다르게 표현하면 불확실성의 정도(uncertainty)라 할 수 있습니다. 즉 엔트로피가 낮아지면 복잡도와 불확실성이 줄어듭니다. 이..