1. 편향(bias) 사용자의 편향은 해당 사용자가 매긴 평점들의 평균과 전체 상품들의 평점평균의 차이 전체 평점평균에 대해 이 사용자는 얼마나 평가를 후하게 하는지 박하게 하는지 알 수 있다. 나연은 전체 상품들의 평점평균에 비해 0.3점 정도 더 주는 경향이 있다. 상품의 편향은 해당 상품이 받은 평점들의 평균과 전체 상품들의 평점평균의 차이 해당 상품이 전체 상품의 평점평균에 비해 얼마나 좋은 평가를 받는지 나쁜 평가를 받는지 알 수 있다. 식스센스는 전체 상품들의 평점평균에 비해 0.8점정도 긍정적으로 평가 받는다 사용자와 상품의 편향은 현재 주어진 데이터로부터 계산한 예측값이다. 그러니까 정확한 상수가 아니라는 뜻이다. 데이터가 추가되면 사용자의 평점이나 상품의 평점은 바뀌기 때문에..
1. introduction 2016, big data’s disparate impact에서 연구 데이터가 좋으면 모형의 결과도 좋고 편향이 많으면 결과도 그럴 것 사회 자체에서 가지는 많은 편향들이 데이터의 형태로 AI 모델에 들어간다 정확히 어디 있는지는 모르겠지만 숨겨져있는 어떤 패턴에 의해 알고리즘을 사용하다보면 소수의 어떤 그룹들이 의도하지 않은 차별을 당한다 2. bias source 2-1) target variable target variable이나 class label을 정의하는 순간부터 bias가 들어갈 수 있다 예를 들어 ‘good employee’는 어떻게 정의해야? 누구는 일을 잘하는 사람, 누구는 이 회사에 오랜 기간 일을 하는 사람, 누구는 다른 사람과 잘 어울리는 사람, 누구..
1. 여론조사의 비밀 한 여론조사에서 대통령 지지율이 39%로 나타났다. 표본 1000명 중 390명이 지지를 밝힌 셈이다. 그런데 이 숫자는 달라질 수 있는 값이다. 우연히 다른 시민이 여론조사 전화를 받았다면, 380명이나 400명이 지지한다고 답했을 수 있다. 이 여론조사에서 알아내려는 값은 진짜 대통령의 지지율이다. 실제로 정확히 알기란 불가능한 진짜 지지율은 모집단(전체 국민의 대통령 지지율)의 값이므로 모수라고 부른다. 여론조사에서 조사된 값이 '어떻게 얼마나 달라질 수 있었을까' 답을 구하려면 이 모수를 알면 정확히 알 수 있다. 모수 값이 정확히 얼마인지는 알 수 없지만, 어떤 값일 것이라고 가정할 수는 있다. 대통령의 진짜 지지율이 45%였다고 가정하자. 오늘을 무한히 다시 살며 여론조사..
1. 오차란 건강관리를 위해 매일 체중을 측정하고 기록하는 상황을 생각해보자. 실제 체중을 가능한한 정확하게 기록하고 싶지만, 정확한 체중계더라도 측정을 여러번 반복해보면 체중 값이 매번 조금씩 달라진다. 이런 상황을 '값에 변동이 있다'고 한다. 이 때, 진짜 체중의 값을 참값(true value)이라고 한다. 이 값은 절대 변하지 않는다. 그러므로 매번 체중계에서는 참값과는 다른 값이 표시되고 있다는 것이 된다. 좀 더 정확하게 측정하고 싶다면 입고 있는 옷의 무게도 빼야 한다는 것도 생각해야 한다. 이렇게 참값과 관측한 값의 차이를 오차(error)라고 한다. 2. 오차가 크면 정보가 사라진다 만일 체중계가 측정값이 측정할때마다 +-10kg씩 변동이 있다고 한다면, 매일 체중 변화를 기록하는데 아무..
1. 관측된 데이터가 항상 정확한 것은 아니다 데이터 분석의 목적은 수집한 데이터를 사람이 해석하고 이용할 수 있는 형태로 변환해서 분석 대상을 이해하거나 예측하는 것이다. 분석 대상으로부터 데이터를 수집하는 것이 관측(observation) 관측은 분석 대상으로부터 정보를 끄집어내는 작업이지만, 관측으로 얻은 데이터가 항상 정확하게 알고 싶은 정보를 반영하고 있지는 않다. 오히려 관측 과정에서 여러 의미로 왜곡된다 이러한 왜곡을 편향(bias)이라고 한다. 2. 쓰레기를 넣으면 쓰레기가 나온다 데이터 분석에서 "쓰레기를 넣으면 쓰레기가 나온다(Garbage in, garbage out.)"는 표현이 있다. 아무리 뛰어난 분석 방법이라도 분석할 데이터의 품질이 나쁘면 분석된 결과도 도움이 되지 않는다라는..
1. 데이터, 예측력을 좌우한다 강남역이 막히는지를 예측하기 위해 먼저 학습 데이터부터 살펴봅시다. 여러 조건을 관찰해 학습 데이터를 만들었습니다 계절 요일 시각 날씨 강남역 교통 체증 봄 주말 9시 맑음 교통 원활 봄 주중 8시 맑음 교통 체증 여름 주말 8시 비 교통 원활 가을 주말 13시 비 교통 체증 가을 주중 14시 비 교통 원활 가을 주중 8시 비 교통 체증 겨울 주말 8시 맑음 교통 원활 겨울 주말 9시 맑음 교통 원활 겨울 주말 10시 맑음 교통 원활 겨울 주중 13시 맑음 교통 원활 데이터의 특징부터 자세히 살펴봅시다. 주로 강남역에는 평일 출근 시간대에 교통 체증이 발생합니다. 평일 8시~9시 사이에는 항상 교통 체증이 발생하고, 날씨가 맑든 비가 오든 출근 시간대에는 마찬가지여서 날씨..
내 블로그 - 관리자 홈 전환 |
Q
Q
|
---|---|
새 글 쓰기 |
W
W
|
글 수정 (권한 있는 경우) |
E
E
|
---|---|
댓글 영역으로 이동 |
C
C
|
이 페이지의 URL 복사 |
S
S
|
---|---|
맨 위로 이동 |
T
T
|
티스토리 홈 이동 |
H
H
|
단축키 안내 |
Shift + /
⇧ + /
|
* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.