비전공자도 이해할 수 있는 AI지식 -데이터를 잘 모아야하는 이유-

1. 데이터, 예측력을 좌우한다

 

강남역이 막히는지를 예측하기 위해 먼저 학습 데이터부터 살펴봅시다.

 

여러 조건을 관찰해 학습 데이터를 만들었습니다

 

계절 요일 시각 날씨 강남역 교통 체증
주말 9시 맑음 교통 원활
주중 8시 맑음 교통 체증
여름 주말 8시 교통 원활
가을 주말 13시 교통 체증
가을 주중 14시 교통 원활
가을 주중 8시 교통 체증
겨울 주말 8시 맑음 교통 원활
겨울 주말 9시 맑음 교통 원활
겨울 주말 10시 맑음 교통 원활
겨울 주중 13시 맑음 교통 원활

 

 

데이터의 특징부터 자세히 살펴봅시다.

 

주로 강남역에는 평일 출근 시간대에 교통 체증이 발생합니다.

 

평일 8시~9시 사이에는 항상 교통 체증이 발생하고, 날씨가 맑든 비가 오든 출근 시간대에는 마찬가지여서 날씨와는 크게 상관이 없어 보입니다.

 

주중에도 오후 시간대에는 교통 체증이 발생하지 않습니다.

 

그러나 주말에는 오전에는 괜찮은데 오히려 오후에 교통 체증이 발생합니다.

 

아마 쇼핑 등으로 오후에 사람이 더 몰려들기 때문인 거 같네요.

 

 

1-1) 일부 데이터가 없다면...

 

이번에는 데이터 분포를 살펴봅시다.

 

학습 데이터는 총 10건입니다. 이 중 겨울 데이터는 4건인데 모두 교통이 원활하다는 데이터만 있습니다.

 

이처럼 겨울에 교통 체증이 발생하는 데이터가 없다면 데이터에서 포착하지 못한 문제가 일어날 가능성이 있습니다.

 

극단적인 예를 들어보죠.

 

미국의 신용 평가사들은 1980년대부터 2000년대 중반까지 미국의 주택 가격은 언제나 꾸준히 상승한다는 데이터를 기반으로 평가 모델을 만들었습니다.

 

그래서 신용평가 모델은 미국의 주택 가격이 일제히 하락할때 어떤 일이 일어날지에 대해서는 아무것도 모르고 있었죠.

 

2008년 서브프라임 모기지 사태가 발생하자 주택 가격이 한꺼번에 폭락하기 시작했습니다.

 

한번도 경험하지 못한 사건이 발생하자 이들 신용 평가 모델은 신용 위험을 산정하는 데 아무런 소용이 없었죠

 

겨울에 교통이 모두 원활하다는 데이터도 이러한 문제를 일으킬 수 있습니다.

 

겨울에는 교통 체증이 발생하는 경우를 한번도 보지 못했기 때문에 겨울에 발생하는 교통 체증을 제대로 예측할 수 없죠

 

 

1-2) 불균형하게 데이터가 분포한다면...

 

다음은 데이터 불균형 문제입니다.

 

학습 데이터가 겨울에는 4건, 가을에도 3건이 있지만 여름에는 1건밖에 없습니다.

 

이렇게 데이터에 불균형이 있으면 상대적으로 비중이 적은 여름 데이터는 정확도가 떨어질 수 있습니다.

 

예를 들어보죠.

 

수만 장의 엑스레이 사진을 학습했다 해도 암을 포착한 사진을 수십여 장밖에 보지 못했다면 학습 데이터 중 암을 포착할 확률은 고작 0.1% 정도에 불과합니다.

 

이렇게 되면 암을 예측하는 능력이 현저히 떨어집니다.

 

본 적이 몇 번 없기 때문이죠.

 

제대로 예측하기 위해선 먼저 학습 데이터가 균형 있게 구성되어야 합니다.

 

또는 불균형을 해결해줄 특별한 알고리즘이 필요하죠.

 

그런 게 아니라면 여름 데이터를 정확하게 예측하기 위해 1건이 아니라 다른 계절과 비슷한 수준의 데이터가 필요합니다.

 

 

1-3) 편향이 있다면...

 

이외에도 스탠퍼드대학교의 한 연구팀은 머신러닝이 건강한 피부와 피부암 사진을 구분하도록 학습시킨 적이 있습니다.

 

하지만 학습이 끝나고 보니 엉뚱하게도 눈금자를 판별하는 모델이 되고 말았습니다.

 

모든 피부암 사진에 종양의 사이즈를 측정하기 위한 눈금자가 있었기 때문이죠.

 

https://www.sciencedirect.com/science/article/pii/S0022202X18322930

 

이처럼 잘못된 방향으로 치우치는 편향(bias)은 때로 도덕적인 문제로 이어지기도 합니다.

 

예를 들어 신용평가를 하는 인공지능이 흑인이라는 이유만으로 백인에 비해 낮은 점수를 주는 경우를 들 수 있죠.

 

또는 범죄 확률이 높다고 판별할 수도 있습니다.

 

심지어 흑인의 사진을 고릴라로 분류하기도 합니다.

 

인공지능이 의도치 않게 인종차별을 하는 겁니다.

 

물론 차별이 비단 알고리즘의 문제만은 아닙니다.

 

알고리즘 이전에도 차별의 역사는 오래되었죠. 

 

뉴욕의 최고 명소중 하나인 존스 비치의 고가도로가 대표적인 경우입니다.

 

존스 비치 고가도로는 아름답지만 유독 높이가 낮습니다. 

 

높이가 겨우 2.7m에 불과한데, 이렇게 설계한 이유는 1920년대 당시 도시 계획을 주도한 행정가가 존스 비치 국립공원에는 부유한 백인만 출입을 원했기 때문입니다.

 

백인들은 바닷가에 올 때 자가용을 몰고 오겠지만, 가난한 동네에 사는 흑인들은 버스를 타고 올 것이며,

 

버스의 높이는 3.6m이므로 일부러 버스를 타고 오는 흑인의 접근을 막으려고 고속도로를 따라 수백 개의 고가도로 높이를 일부러 낮춰버린 것이죠.

 

이처럼 차별의 흔적은 예로부터 수도없이 많습니다.

 

다행히 알고리즘은 의도적으로 차별하진 않지만, 편견을 갖게 되고 이는 곧 차별 행동으로 이어질 수 있습니다.

 

따라서 편향이 발생하지 않도록 항상 예의 주시해야 합니다.

 

지금까지 데이터에 문제가 있을 때 어떤 일이 벌어지는지 살펴봤습니다.

 

그렇다면 이렇게 모은 데이터로 어떻게 강남역의 교통 체증을 예측할 수 있을까요?

 

 

 

TAGS.

Comments