데이터 속에 숨은 편향

1. introduction

 

2016, big data’s disparate impact에서 연구

 

데이터가 좋으면 모형의 결과도 좋고 편향이 많으면 결과도 그럴 것

 

사회 자체에서 가지는 많은 편향들이 데이터의 형태로 AI 모델에 들어간다

 

정확히 어디 있는지는 모르겠지만 숨겨져있는 어떤 패턴에 의해 알고리즘을 사용하다보면 소수의 어떤 그룹들이 의도하지 않은 차별을 당한다

 

 

2. bias source

 

2-1) target variable

 

target variable이나 class label을 정의하는 순간부터 bias가 들어갈 수 있다

 

예를 들어 ‘good employee’는 어떻게 정의해야?

 

누구는 일을 잘하는 사람, 누구는 이 회사에 오랜 기간 일을 하는 사람, 누구는 다른 사람과 잘 어울리는 사람,

 

누구는 다른 사람 빨리 퇴근해도 늦게까지 일해주는 사람을 good employee라고 본다.

 

이런 서로 다른 기준이 하나의 bias를 만들어 낸다

 

 

2-2) training data labeling

 

학습 데이터에 정답을 부여하는 순간부터 bias가 생길 수 있다

 

linkedin에서 employer로부터 입사후보자들을 평가하는 데이터

 

employer의 판단에 의해 (의도하지 않았을지라도) 여자나 학력이 낮은 사람에 대한 bias가 들어갈 수 있다

 

 

2-3) training data collection

 

data를 어떻게, 어디에서 수집했는지도 사실 문제다.

 

보스턴에서는 눈이 많이 와 염화칼슘을 많이 뿌려 도로에 구멍이 쉽게 난다고 한다.

 

어디 도로를 제일 빨리 공사해야할지 시민 핸드폰 앱을 통해 데이터를 모으고자 했다.

 

현명했지만 사실 가난한 지역에서 스마트폰 보급률이 높지 않아 부자인 지역에 편향될 가능성이 높았다.

 

또 다른 예시로 공대의 경우 여학생이 많이 없어서 여학생들에게 과하게 집중하는 경향이 있다.

 

그래서 여학생들이 조금만 못따라오면 혹시 여자라서 못하는건가? 차별하게 된다

 

 

2-4) feature selection

 

입사후보자들을 채용할 때 후보자들의 어떤 feature를 볼 것인가?

 

대학이나 지역의 평판을 고려하면 문제가 될 수 있다

 

‘서울대 학생들은 다 일을 잘한다’ 그런데 사실 대학 내 학점 등등으로 개개인마다 실력은 다 다름

 

‘서울 사는 사람들은 다 공부를 잘하더라’ 당연히 말이 안되는 소리

 

신용카드를 줄 때 그 사람의 소득 능력을 보고 줘야하는데 보기 힘들다고 그 사람이 무슨 지역에 사는지 확인하면 당연히 문제

 

이 사람 서초구에 사네? 그러면 돈이 많겠지? 하고 그냥 신용카드 발급

 

2-5) unintentional discrimination

 

머신러닝 모델은 계속해서 데이터로부터 패턴을 찾도록 설계되어있다.

 

대학 어디 나왔는지 별 생각없이 feature로 넣어 설계했는데 ML은 패턴을 찾다보니 설계자가 의도한 것과는 관계없이 중요하다고 생각하면서 대학으로 차별

 

2-6) intentional discrimination

 

종교라는거 알기 어려워서 feature에서 빼버리거나 특정 종교가 싫어서 feature에서 빼버리면

 

머신러닝 모델은 당연히 종교를 고려하지 않은 의도된 차별을 한다

 

 

3. bias measure

 

언어 모델에서 bias를 측정하려는 시도가 있었다

 

3-1) word embedding associate test

 

target concept의 단어들이 어떤 attribute의 단어들과 같이 등장할 확률이 높은지 측정

 

 

 

european american names의 단어들은 pleasant의 단어들과 같이 등장할 확률이 높았고

 

african american names의 단어들은 unpleasant의 단어들과 같이 등장할 확률이 높았다

 

bias는 없애려고 한다기 보다는 AI가 기존의 bias를 더욱 악화시킬 수 있다는 것을 인지하여 고민을 많이 해야한다.

TAGS.

Comments