본문 바로가기

콘텐츠/강승우의 머신러닝 이야기

[강승우의 머신러닝 이야기] 전이학습, 머신 간의 지식 전수

[강승우의 머신러닝 이야기] 전이학습, 머신 간의 지식 전수

강승우 위데이터랩 AI 연구소장

근대 물리학을 이끈 아이작 뉴턴은 “내가 더 멀리 보았다면, 이는 거인들의 어깨 위에 올라서 있었기 때문”이라고 말했다. 이는 현재 우리의 지식은 지난 오랜 기간 동안 선조들이 전수해진 지식을 바탕으로 그 위에 새로운 지식을 계속 쌓아 올려왔다는 것을 의미한다. 인간은 한 세대에서 얻은 지식을 교육을 통해 후손에게 전달한다. 그리고 다음 세대는 전수받은 지식을 바탕으로 다시 새로운 지식을 찾아 나가는 것이다.

머신러닝(Machine Learning)은 컴퓨터가 주어진 데이터에서 특정한 패턴, 규칙 혹은 그 사이의 관계와 같은 지식을 찾아내는 기술이다. 컴퓨터가 찾아낸 지식은 다음에 사용하기 위해 저장장치에 저장할 수 있다. 그리고 인간이 지식을 전수하듯이 다른 컴퓨터에 전달(Transfer)할 수도 있다. 그 과정은 인간의 지식 전달보다 훨씬 빠르고 간단하다. 그리고 전달받은 지식을 기반으로 추가적인 학습을 통해 새로운 지식(패턴, 규칙, 관계)를 만들어 낼 수도 있다.

이처럼 기존에 훈련된(pre-trained) 머신러닝 모델에서 지식을 전수받아, 이를 기반으로 각자의 목적에 맞게 추가적인 머신러닝 훈련을 시키는 것을 ‘전이학습(Transfer Learning)’이라고 한다.

카네기멜론 대학의 톰 미첼 교수는 머신러닝에 대해 "프로그램이 일정 수준의 성능(P)를 가지고 작업(T)을 수행한다고 했을 때, 경험(E)이 증가함에 따라 작업(T)을 수행하는 성능(P)이 향상될 수 있다. 이때 프로그램이 경험(E)으로 부터 학습(learn)했다고 한다(A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on t, as measured by P, improves with experience E)”고 정의했다.

고양이와 강아지 사진을 분류하는 작업을 예로 들어보자.

머신러닝을 통해서 수행하고자 하는 작업(T)은 ‘고양이와 강이지 사진을 구분하는 일’이다. 그리고, 학습에 사용되는 경험(E)는 많은 양의 고양이와 강아지 사진 데이터다. 각각의 사진은 ‘고양이’ 혹은 ‘강아지’라고 표시돼 있다. 그리고 얼마나 정확하게 고양이와 강아지를 구분하는지 확인함으로써 성능(P)이 변화를 확인할 수 있다.

이런 과정을 통해서 머신이 배우는 것은 입력되는 사진에서 판별을 위한 정보를 추출하는 방법이다. 구체적으로는 입력된 사진의 각 점(pixel)의 정보와 고양이와 강아지 판별 결과를 이어주는 수식에 필요한 매개변수(parameter)다.

훈련된 머신러닝 모델은 주어진 데이터에 최적화된 매개변수 값을 가진다. 최적화된 모델과 매개변수는 저장장치에 저장해 둘 수 있다. 그리고, 필요한 경우에 메모리로 불러와 재사용할 수 있다. 또한 필요한 경우에 데이터를 추가해, 추가적인 학습을 할 수도 있다. 이처럼 기존에 훈련된 모델의 지식을 바탕으로 추가적인 학습을 하는 것을 ‘전이학습(Transfer Learning)’이라고 한다.

앞의 예에서 고양이와 강아지 판별을 학습한 머신러닝 모델을 저장해둔 경우를 가정해 보자. 저장된 모델은 학습에 사용된 고양이 사진에 대해서는 높은 판별율을 보이지만, 학습에 사용되지 않은 종에 대해서는 판별율이 급격히 낮아진다. 예를 들어 페르시안 고양이 사진이 학습에서 빠트렸을 경우, 페르시안 고양이를 학습하지 못한 머신러닝 모델은 페르시안 고양이에 대한 판별 능력이 떨어지게 된다.

이 문제를 해결하기 위해 해당 모델의 지식(매개변수 – parameter)를 전수받아 이전 학습에 빠트린 페르시안 고양이에 대해 추가적으로 학습시킬 수 있다. 혹은 해당 모델에 토끼를 구분하는 능력을 추가할 수도 있다. 다양한 토끼의 사진을 추가적으로 학습시켜 고양이와 강아지, 그리고 토끼를 판별하는 새로운 모델을 만들 수도 있는 것이다.

이처럼 머신러닝으로 컴퓨터가 학습한 지식의 전달과정은 컴퓨터 저장장치에 기록을 저장하고 읽어오는 과정과 마찬가지로 빠르고 단순하다.

2015년 개봉된 영화 ‘채피(Chappie)’는 인공지능 로봇에 대한 흥미로운 스토리를 보여준다. 인공지능 로봇 ‘채피’는 마치 어린 아이가 학습을 하듯이 하나씩 배워 나가며, 악당에 맞서는 영웅으로 성장한다. 영화에서 인공지능과 관련하여 가장 인상적은 부분은 마지막 부분에 있다. 위기에 빠진 채피의 아버지(채피를 만든 과학자)는 자신의 의식을 AI 네트워크로 전송한다. 그리고, 로봇의 몸에 그의 의식을 이식한다.

영화 ‘채피(chappie)’ 한 장면 : 인간의 의식을 AI 네트워크로 업로드 한다. (출처: 다음영화, 래딧)

먼 훗날, 이처럼 인공지능과 인간이 지식을 공유하고 전달할 수 있는 시대가 온다면, 전이학습은 새로운 형태로 발전할 수 있을 것이다.

 

필자 강승우 위데이터랩 인공지능연구소장 겸 부사장은 펜타 컴퓨터를 거쳐 BEA, Oracle에서 최고 기술 아키텍트로서 기업의 IT 시스템 문제가 있는 곳의 해결사 역할을 해왔다. 글로벌에 통하는 한국 소프트웨어 개발에 대한 열정으로 S전자 AWS 이벤트 로그 분석을 통한 이상징후 탐지, R사의 건축물 균열 탐지 등의 머신러닝 프로젝트를 진행했다. 현재는 딥러닝을 이용한 소프트웨어 취약점 탐지 자동화 연구와 머신러닝과 딥러닝강의를 진행하고 있으며, 비즈니스화에도 노력을 기울이고 있다. 최근 저서로 '머신러닝 배웠으니 활용해볼까요?'가 있다.

(이 칼럼은 GTT KOREA의 편집 방향과 다를 수 있습니다.)