본문 바로가기

위데이터랩 도서/야사와 만화로 배우는 인공지능

[인공지능 만화] 25. 딥러닝의 Hello World, MNIST 데이터셋

 

머신러닝의 Hello World가 iris 데이터셋이라면딥러닝에서는 MNIST(Modified National Institute of Standards and Technology Database)입니다.

 

MNIST는 손으로 쓴 숫자로 이루어진 대형 데이터베이스입니다.

1989년 얀 레쿤 CNN 논문 발표
1995년 NIST 데이터셋 1st Edition 발표
1998년 MNIST 데이터셋 발표 (크리스 버지스 Chris Burges, 코리나 코테스 Corina Cortes, 얀 레쿤 Yann LeCun)
2016년 NIST 데이터셋 2nd Edition 발표
2017년 EMNIST 발표

1986년 NIST에서는 우편번호를 읽어 빠르게 분류할 수 있는 방법을 고민했습니다.수많은 우편물을 분류하는데 실수도 많고, 비용도 많이 들었기 때문입니다.

1989년 얀 레쿤은 CNN(Convolutional Neural Network) 알고리즘을 세상에 내놓았고,딥러닝이 이 문제를 해결할 수 있을거라 생각합니다.

우편봉투로부터 숫자를 하나씩 분리해냈고,다양한 크기의 숫자에 크기도 정방형이 아닌 40x60 픽셀을선형변환으로 16x16 픽셀의 숫자데이터로 만들어냅니다.말이 쉽지 매우 어려운 작업이었습니다.

이렇게 어려운 전처리 끝에 CNN의 입력데이터를 만들었고,이를 통해 획기적으로 우편번호를 분류하는데 성공합니다.

당시 사람들은 문자인식에도 관심이 많았고,많은 회사들이 저마다 자사의 시각패턴인식 성능이 최고라며 경쟁합니다.

 

그것을 위해서는 데이터 확보가 중요하다보니 다양한 방법이 시도됩니다.피터 프레이 Peter W. Frey와 데이빗 슬레이트 David J. Slate는알렌 허쉬 Allen V. Hershey 박사가 디자인한 20개의 알파벳 폰트를 변형하여20,000개의 알파벳 폰트를 만들어 16개의 Feature를 뽑아내어글자를 인식하고자 시도합니다. 1991년의 일입니다.

NIST는 이들을 비교, 평가하기 위해 정답이 필요했습니다.이를 위해 아래와 같은 양식으로 글씨를 수집하여 데이터셋을 만듭니다.

(이 양식은 SD-19를 만들 때 사용된 양식입니다. 참고하세요.)

얀 레쿤은 이 데이터셋을 활용하면 딥러닝을 학습시킬좋은 데이터셋을 만들 수 있을 거라 생각합니다.

그렇게 NIST 데이터셋을 기반으로 MNIST가 만들어집니다.
MNIST는 고등학생들의 글씨인 NIST SD-1(Special Database-1)과인구조사국 직원들의 글씨인 NIST SD-3로부터 데이터를 가져왔습니다.
각각 3만개씩 뽑아 6만개의 Training Dataset을,각각 5천개씩 뽑아 1만개의 Test Dataset을 만들고,이것을 정규화, 표준화, 그리고 약간의 보정을 통해 MNIST Dataset을 만들어냅니다.

덕분에 최근 딥러닝 연구자는 MNIST로부터 딥러닝을 시작합니다.데이터가 핵심인 딥러닝에 큰 기여를 한 데이터셋인 것입니다.
감사해요. 크리스 버지스, 코리나 코테스, 얀 레쿤!