Loading...
2023. 12. 11. 02:46

8장 프로이센 왕국의 기병대 말 뒷발차기 사망사건

1. 확률분포란 동전 던지기를 하면 앞면이 나올지 뒷면이 나올지 예측하기 어렵다. 앞면과 뒷면이 나올 가능성이 똑같아서 특별히 하나를 골라 맞히기 어렵다. 그렇다면 동전 던지기 결과에는 아무런 패턴이 없는 것일까? 아니다. 앞면이 나올 확률이 절반, 뒷면이 나올 확률이 절반이라는 패턴이 있다. 이처럼 그 결과가 예측 불가능하고 무작위성을 띠는 사건의 패턴을 확률로 기술한 것을 '확률분포'라고 한다. 정확히 어떤 값이 나올지는 알 수 없지만 확률분포를 이용하면 그 불확실성을 체계적으로 이해할 수 있다는 뜻이다. 2. 포아송분포 19세기 프로이센 왕국은 그 당시 유럽의 여느 강대국처럼 기병대가 군대의 주력이었다. 실제로 프로이센에는 150마리의 말과 기병으로 이루어진 기병대가 55개나 있었다. 그런데 기병대..

2023. 12. 5. 01:37

5장 데이터는 어떻게 정보가 되는가

1. 데이터에서 쓸모있는 정보를 찾아내는 것은 쉽지 않다 사람들은 합리적인 의사결정을 위해서 데이터를 찾는다. 인터넷 브라우저나 스마트폰의 네이버 지도에서 맛집을 검색하면 여러 유용한 정보를 쉽게 찾을 수 있다. 우리는 그 동네의 식당 명단과 함께 별점, 방문자와 블로거의 논평 같은 '정보'를 기반으로 이번 주말에 친구들과 갈 음식점을 정한다. 정부도 데이터를 구한다. 2020년 대한민국 통계청이 발표한 인구주택총조사에 따르면 1인 가구 비중은 전체 가구 수의 31.7%이며 점점 증가하는 추세에 있다. 1인 가구 중 20대는 19.1%, 70대 이상이 18.1%라고 한다. 이 정보를 바탕으로 정부는 1인 가구에 대한 사회보장 정책을 세운다. 그렇다면 데이터는 곧 정보일까? 정리되지 않은 데이터는 쓰레기 ..

2023. 11. 30. 00:19

3장 점술가의 데이터 사용법, 4장 데이터 없이는 통계도 없다

1. 점술가가 미래를 예측하는 방법 사람들은 마음을 의지하고 싶거나 그저 재미로 종종 점집을 찾는다. 점술가가 자신의 과거, 현재, 미래를 꿰뚫어 보았다는 누군가의 증언이 있으면 더 솔깃해진다. 고객의 생김새, 행동거지, 옷매무새 등과 짧은 대화만으로 그의 특성을 단시간에 파악하고 엇비슷한 부류의 전형적인 고민거리와 배경을 빠르게 도출해내는 점술가가 유려한 언변과 태도, 유연한 대응, 여기에 손님들의 '생존자 편향'이 더해진다면 '용한 점술가'가 탄생할 수 있다. 생존자 편향이란 좋은 경험만 공유하고, 좋지 않은 경험은 함구하는 경향을 말한다. 영민한 점술가는 본인이 의도하지 않더라도 통계의 가장 기본적인 얼개를 이용한다. 자신의 상담 경험과 기존 사례들(이를 데이터로 볼 수 있다)을 기반으로 지금 눈앞..

2023. 11. 7. 11:44

opencv와 PIL이 이미지를 저장하는 방식의 차이

opencv는 컬러 이미지를 BGR로 저장하는데, PIL은 RGB로 저장한다 그래서 동일한 이미지를 opencv로 read할때와 PIL로 open할때 plt.imshow()하면 보이는게 다르다 from imageio import imread from PIL import Image import cv2 import matplotlib.pyplot as plt #opencv를 이용하여 이미지 load 후 시각화 img = cv2.imread(kitten_path) plt.imshow(img) plt.show() opencv로 열면 파란색이 먼저 보임 # PIL을 이용하여 이미지 load후 시각화 img_ = Image.open(kitten_path) plt.imshow(img_) plt.show() #imag..

SQL 연습 - 시간 차이는 무조건 DATEDIFF, MYSQL의 if문-

1. 문제 코딩테스트 연습 - 자동차 대여 기록에서 장기/단기 대여 구분하기 | 프로그래머스 스쿨 (programmers.co.kr) 프로그래머스 코드 중심의 개발자 채용. 스택 기반의 포지션 매칭. 프로그래머스의 개발자 맞춤형 프로필을 등록하고, 나와 기술 궁합이 잘 맞는 기업들을 매칭 받으세요. programmers.co.kr 2. 풀이 end_date와 start_date 차이가 30일 이상이면 '장기 대여', 그렇지 않으면 '단기 대여'로 표시해서 rent_type이라는 변수로 만들어 출력하는 문제 if문을 사용해서 rent_type 변수를 만들 수 있다 https://deepdata.tistory.com/65 코딩테스트를 위한 SQL 간단 벼락치기 1. 세미콜론 모든 수행 문장이 끝날 때 최종적..

2023. 7. 17. 02:57

데이터 해석학5 -오차와 확률분포-

1. 데이터의 변동 파악 측정 결과가 우연오차에 의해 변동이 생긴다고 하지만, 이 변동을 어떻게 다루어야할까? 몸무게의 참값이 50kg인 A가 몸무게를 10번 측정한 경우를 생각해보자. 편향은 무시하고, 우연오차만 결과에 영향을 미친다고 가정하자. 이 우연오차의 특징을 파악하기 위해 측정을 10000번 반복한다. 결과를 단순히 수직선 위에 그리면 보기 어렵기 때문에 히스토그램을 사용하여 표시 막대의 폭(구간)을 0.02kg으로 설정하고, 그 안에 들어간 데이터의 개수를 높이로 표시한다. 분할된 각 구간을 bin이라고 한다. 예를 들면, 측정된 값이 50.00~50.02kg의 범위에 포함된 횟수가 771번 처럼 전체를 세세하게 나눠서 세고 있다. 이 히스토그램은 산 모양을 나타내고 있는데, 이 측정을 계속..