본문 바로가기

데이터분석

[인공지능 만화] 33. 선이 아닌 평면으로 데이터를 분류하다, SVM 1995년 코리나 코테스 Corinna Cortes와 블라디미르 배프닉 Vladimir Vapnik은 잘못 분류된 자료들을 허용하는 변형된 최대 마진 분류기를 제안합니다. '네/아니오'라는 결과를 내야하는 자료들을 분할하는 초평면이 존재하지 않는다고 가정할 때 여전히 가장 가까이 위치한 제대로 분류된 자료들의 거리를 최대화하면서 주어진 자료를 가능한 제대로 분리하는 초평면을 찾는 알고리즘입니다. 이 아이디어는 1963년 블라디미르 배프닉과 알렉세이 체르보넨키스 Alexey Chervonenkis가 처음 생각해냈고, 30년 후인 1992년 번하드 보서 Bernhard Boser, 이자벨 구욘 Isabelle Guyon, 블라디미르 배프닉이 커널기법을 적용한 비선형 분류기로 마진을 극대화하기 위한 방법을 제.. 더보기
[인공지능 만화] 32. 추가정보로 확률을 업데이트하다, 나이브 베이지언 구글의 지메일이나 네이버 메일을 사용하다보면 자동으로 스팸메일이 분류되어 별도로 보관되는 기능을 발견할 수 있습니다. 어떤 원리로 검사하는 걸까요? 오늘은 스팸메일이나 문서분류에 많이 쓰이는 머신러닝 알고리즘인 나이브 베이즈 Naïve Bayesian에 대해 알아봅니다. 데이비드 헤커맨 David Heckerman은 스탠포드 대학에서 바이오인포매틱스 Bioinfomatics를 전공하고, 1992년부터 마이크로소프트에서 확률론에 기반한 인공지능을 연구하고 있습니다. 1997년 어느날 데이비드 헤커맨에게 스팸메일이 하나 도착합니다. 기본적으로 그 문제는 텍스트분류 문제에 해당하는데 헤커맨은 다른 방식으로 접근합니다. 때마침 1998년 스탠포드 대학원에 다니면서 여름방학 인턴을 하던 메란 사하미 Mehran .. 더보기
[인공지능 만화] 31. 유유상종-친구를 보고 판단하기 K-최근접 이웃 알고리즘 k-최근접 이웃 k-nearest Neighbors 알고리즘은 분류와 회귀를 사용한 비(非)모수적 패턴인식 방법입니다. '비모수적'이란 모집단에 대한 정보 없이 접근하는 방식을 의미합니다. 1951년에 발간된 미공개 미국 항공의학 보고서에서 에블린 픽스 Evelyn Fix와 조셉 하지스 Joseph Lawson Hodges Jr. 는 패턴 분류를 위해 비모수적 방법으로 k-최근접 이웃 규칙을 발표합니다. 그 보고서는 처음으로 몇 가지 중요한 개념을 소개했습니다. 그것은 역사적으로도 의미가 있었지만 현재도 여전히 중요하게 쓰이고 있습니다. k-최근접 이웃 규칙을 만든 에블린 픽스는 1904년 미국 미네소타주 덜루스에서 태어나 미네소타 대학에서 수학 학사(1924), 교육학 석사(1925)를 마치고 고등학교.. 더보기
[인공지능 만화] 30. 가까운 것끼리 묶어주기 k-means는 누가 만들었나? 레이블 label(꼬리표, 식별자)이 있는 데이터로부터 모델을 만들어 레이블이 없는 데이터의 레이블을 예측하는 것을 머신러닝 machine learning에서는 지도학습 supervised learning의 '분류 classification'라고 합니다. 온라인 쇼핑몰이나 대선 캠프처럼 고객이나 상품, 유권자에 대한 레이블이 없고, 심지어 몇 개의 그룹으로 나누어야 하는 지도 알 수 없는 경우라면 어떻게 분류할 수 있을까요? 이렇게 레이블이 없는 데이터 내부의 패턴과 구조를 발견하는 것을 비지도학습 unsupervised learning이라고 하는데 그 중에서도 비슷한 속성끼리 묶어주는 알고리즘을군집화 clustering라고 합니다. k-means는 군집화 문제를 해결하는 가장 간단한 비지도학습 알고리즘.. 더보기
[인공지능 만화] 29. 모든 것은 평균으로 수렴한다, 회귀분석 머신러닝을 데이터를 학습하여 예측하고 분류하는 방법으로 정의하면가장 대표적인 머신러닝 알고리즘은 통계학에서 발전한 회귀분석입니다. 특히 회귀분석은 지금처럼 빅데이터가 등장하기 전에 비교적 적은 데이터로 독립변수나 종속변수의 관계를 수식으로 표현할 수 있어서 논문과 실무에서 가장 많이 사용하는 예측기법이었습니다. 좀 더 복잡한 예를 들어보면 아파트값이라는 종속변수와 그것을 결정하는 여러 독립변수(평수, 교통, 학군, 편의시설 등)와의 관계를 다중회귀분석이라는 방법으로 예측할 수 있습니다. 우리가 이렇게 예측할 수 있는 것은 데이터가 특정값으로 수렴되는 특징, 즉 '평균으로의 회귀' 성질이 있다고 생각하기 때문입니다. 이런 '회귀분석'을 고안한 분은 누구일까요? 골턴은 유전학에 관심이 많았습니다. 그가 했던.. 더보기
[인공지능 만화] 28. 수많은 집러닝의 스타들을 길러낸, 마이크 조던(II) 1956년 베이비붐 시대에 태어난 마이클 조던은어려서부터 호기심이 왕성했습니다.특히 모르는 세계에 대한 탐험에 대한 관심이 많았습니다. 그는 60년대와 70년대 미국사회의 사회운동을 보면서는인간과 사회현상에 관련된 무언가를 해야겠다고 다짐합니다. 그리고 그의 이런 지적 관심은인간의 마음, 지능, 철학 등크게 알려지지 않은 내부 메커니즘을 탐험하는 쪽으로기울게 됩니다. 루지애나의 활기찬 문화와 음식, 음악에 매료된 조던은루지애나 주립대학에 입학합니다.여기서 그는 철학을 전공합니다.그리고는 도서관에서 충격을 받습니다. 세상에! 내가 모르는 분야에 대한 책이 이렇게나 많다니! 그는 수학중심의 철학자인 버트런트 러셀 Bertrand Arthur William Russell, 쿠르트 괴델 Kurt Gödel 의 .. 더보기
[인공지능 만화] 27. 수많은 딥러닝의 스타들을 길러낸, 마이크 조던(I) if-then-else 이런 프로그래밍으로는 인간의 복잡한 인지적 현상을 밝혀낼 수 없다 - 데이빗 럼멜하트 David Rumelhart 기나긴 겨울시기를 보내고 있던 신경망 인공지능 분야에서 PDP(Parallel Distributed Processing) 연구그룹을 결성하여 연결주의 관점에서 신경망의 새로운 봄을 준비하고 있었고, 드디어 1986년제프리 힌튼과 역전파 Back Propagation 알고리즘을 만들어신경망의 난제였던 학습의 어려움을 극복하기 시작합니다. 그로부터 30년이 지나서 제프리 힌튼과 얀 레쿤, 요슈아 벤지오, 앤드류 응 등 딥러닝의 저명인사들이 활약하고 있습니다. 그리고 딥러닝이 세계적 주목을 받으면서 신경망 학회인 NIPS(Neural Information Processing.. 더보기
[인공지능 만화] 26. 영생을 꿈꾸는 미래학자, 레이 커즈와일 2,200여년 전 진시황은 자연 속의 불로초를 찾아 영생을 꾀하려 했지만 한 미래학자는 현대과학기술의 힘으로 영생의 꿈을 이루려 합니다. 그 분은 바로 미국 컴퓨터과학자이자 발명가, 공학자, 미래학자, 특이점주의자인 레이 커즈와일 박사입니다. 레이 커즈와일은 우리에게라는 책으로잘 알려져 있습니다. 레이 커즈와일의 부모님은 오스트리아 출신의 유대인으로서 나치의 박해를 피해 미국으로 건너가셨다고 합니다. 레이 커즈와일은 할머니께서 보여주신 타자기를 보고 큰 영향을 받습니다. 그리고 17살 때 첫 발명품을 만듭니다. 작곡가의 멜로디를똑같은 스타일로 재생하는컴퓨터 프로그램이었습니다. 이것으로 레이 커즈와일은전국대회에서 상을 받고젊은 나이에 유명인사가 됩니다.. 더보기
[인공지능 만화] 25. 딥러닝의 Hello World, MNIST 데이터셋 머신러닝의 Hello World가 iris 데이터셋이라면딥러닝에서는 MNIST(Modified National Institute of Standards and Technology Database)입니다. MNIST는 손으로 쓴 숫자로 이루어진 대형 데이터베이스입니다. 1989년 얀 레쿤 CNN 논문 발표 1995년 NIST 데이터셋 1st Edition 발표 1998년 MNIST 데이터셋 발표 (크리스 버지스 Chris Burges, 코리나 코테스 Corina Cortes, 얀 레쿤 Yann LeCun) 2016년 NIST 데이터셋 2nd Edition 발표 2017년 EMNIST 발표 1986년 NIST에서는 우편번호를 읽어 빠르게 분류할 수 있는 방법을 고민했습니다.수많은 우편물을 분류하는데 실수도 .. 더보기
[인공지능 만화] 24. 로봇이 이어준 인연, 앤드류 응과 캐롤 라일리 개방형 온라인 교육사이트인 COURSERA를 공동창업해 MOOC(Massice Open Online Course) 붐을 일으켰던 앤드류 응 Andrew Ng, 吳恩達 중국계 미국인인 그는 1976년 영국에서 태어났지만 홍콩출신 부모님 덕분에 어린 시절을 주로 홍콩과 싱가포르에서 자랐습니다. 1997년 미국 카네기멜론대학에서 컴퓨터과학을 전공한 후 MIT와 UC버클리에서 석박사과정을 마칩니다. 이후 스탠포드대학 교수로 일하며 자율비행 헬리콥터, 인공지능 로봇 STAIR 프로젝트를 추진하며 일찌기 두각을 나타냅니다. 앤드류 응은 인공지능을 21세기 산업전반을 관통하는 새로운 전기(electrocity)라고 생각하는 분입니다. 그래서 인공지능이 4차산업혁명의 핵심이라고 하지않나 싶네요. 로봇분야에서 이뤄낸 앤.. 더보기