본문 바로가기

콘텐츠/강승우의 머신러닝 이야기

[강승우의 머신러닝 이야기] 어떻게 데이터가 변하니 – 데이터 드리프트(Data Drift)

[강승우의 머신러닝 이야기] 어떻게 데이터가 변하니 – 데이터 드리프트(Data Drift)

강승우 위데이터랩 AI 연구소장

며칠 전 서울의 한 초등학교의 폐교 소식을 들었다. 서울도 출산율 저하라는 사회적 변화를 벗어나지 못했다. 좁은 교실에 콩나물 시루처럼 빽빽하게 앉아 수업을 받던 ‘콩나물 교실’은 사라졌다.

“시간은 모든 것을 파괴한다. …”

프랑스의 수필가 투루니에의 말처럼 시간은 있던 것을 없앤다. 그리고, 그 자리를 새로운 것을 채워 세상에 변화를 가져온다.

인공지능 챗GPT는 아직 2022년의 변화를 배우지 못했다. 2022년 세상의 변화에 대한 질문에는 오답을 내놓고 있다. 변화하는 세상에서는 인공지능의 사는 법을 살펴보자.

영화 <봄날은 간다>에서 헤어지자는 은수(이영애)의 얘기에 상우(유지태)가 묻는다..

“어떻게 사랑이 변하니?”

감독이 준비한 말없는 은수의 마음 속 대답은 “사랑이 어떻게 안 변하니” 였다고 한다.

이제 데이터에 대해서 묻는다.

“어떻게 데이터가 변하니?”

이에 대한 데이터의 답을 적어본다.

“내(데이터)가 어떻게 안 변하니”

머신러닝을 배우면서 보는 샘플 데이터는 항상 그대로 남아 있는 정적인 실험용 데이터이다. 그러나, 현실의 데이터는 항상 변한다. 

주가를 예측하는 머신러닝 모델 훈련을 생각해보자. 이 모델을 10년 전 데이터로 훈련시킨다면 내일 주가를 예측할 수 있을까? 매우 어려울 것이다.

10년전 주가와 현재의 주가는 많은 차이가 있기 때문이다. 10년이라는 세월 동안에는 주가에 영향을 미치는 요소는 상당히 많은 변화가 있을 것이다. 예를 들어 국가의 산업구조가 경공업에서 중공업으로 변화가 되는 경우에 해당 산업군에 따라 주가는 큰 영향을 받을 것이다.

주택 가격을 예측하는 경우도 그렇다. 10년전 주택 가격 데이터로 현재의 주택 가격을 예측하는것은 무리가 있다. 가격 자체도 인플레이션으로 영향을 받았을 것이고, 가격에 영향을 주는 요인도 변화가 있을 것이다.

이처럼 시간에 따른 데이터의 변화를 ‘데이터 드리프트(Data Drift)’라고 부른다. 뗏목이 강물을 따라 흘러가듯 데이터도 시간을 따라 떠다닌다. 데이터가 변하면 머신러닝 모델도 이에 맞게 변해야 한다. 변화를 따라잡지 못한 모델은 정확도가 낮아진다. 데이터의 변화가 감지되면 머신러닝 모델의 정확도가 유지될 수 있도록 모델을 새로운 데이터로 다시 훈련시켜야 한다.

인공지능도 새로운 지식을 배워야 한다.

데이터의 변화가 찾아오는 형태는 몇 가지로 나누어 볼 수가 있다.

점진적으로 천천히 변화가 다가오기도 하고, 급작스럽게 찾아 오기도 한다.

급작스러운 변화는 머신러닝 모델의 판단에 큰 오류를 남긴다. 코로나 팬데믹이 가져온 사회 변화는 데이터의 급작스런 변화를 가져온 대표적인 사례이다.

신용카드 회사는 신용카드 부정사용을 탐지하는 시스템을 갖추고 있다. 예를 들어 한국에서 사용된 카드가 1시간 후 미국에서 사용된다면 이는 부정사용일 가능성이 높다.

카드 부정사용 탐지 인공지능은 이와 같이 평소와는 다른 이상한 패턴을 감지하여 경보(alert) 보낸다. 카드 사기를 방지하고자 하는 것이다. 그런데 코로나 팬데믹이 발생하자, 신용카드 사는 엄청난 양의 카드 사기 경보(alert)로 몸살을 앓았다.

코로나 팬데믹으로 외출이 용이하지 않자, 평소에 온라인 거래를 하지 않던 많은 사람들이 온라인 거래를 시도했다. 사람들의 소비 패턴이 바뀐 것이다. 급작스런 사회 변화를 배우지 못한 인공지능은 많은 경보를 울렸다. 코로나에서 벗어나서 다시 일상으로 돌아오고 있는 지금은 다시 한번 소비 패턴이 변할 것으로 예상된다. 이러한 변화에 대응을 준비할 시점이다.

출처 : https://www.azquotes.com/quote/851504

“인생에서 변하지 않는 유일한 것은 변화이다(Changes is the only constant in Life)”

사랑도 데이터도 예외가 아니다.

변하는 세상에서 인공지능도 지속적인 배움이 필요하다.

 

필자 강승우 위데이터랩 인공지능연구소장 겸 부사장은 펜타 컴퓨터를 거쳐 BEA, Oracle에서 최고 기술 아키텍트로서 기업의 IT 시스템 문제가 있는 곳의 해결사의 역할을 했다. 글로벌에 통하는 한국 소프트웨어 개발에 대한 열정으로 S전자 AWS 이벤트 로그 분석을 통한 이상징후 탐지, R사의 건축물 균열 탐지 등의 머신러닝 프로젝트를 진행했다. 현재는 딥러닝을 이용한 소프트웨어 취약점 탐지 자동화 연구와 머신러닝과 딥러닝강의를 진행하고 있으며, 비즈니스화에도 노력을 기울이고 있다. 최근 저서로 '머신러닝 배웠으니 활용해볼까요?'가 있다.