본문 바로가기

콘텐츠

[인공지능 만화] 37. 빅데이터 시대를 열다. 하둡을 창시한 더그 커팅 더그 커팅 Doug Cutting은 오픈소스 프로젝트의 최대 성공작 중 하나인 Hadoop을 시작한 분입니다. 2006년, 대학원생 마이크 카파렐라 Michael J. Cafarella와 오픈소스 검색엔진의 하부 프로젝트인 하둡 Hadoop을 시작할 때는 이렇게까지 대규모로 커질 줄 몰랐습니다. 소프트웨어에는 두 가지 흐름이 있는데 더그 커팅 자신은 해커 소프트웨어 흐름에 속해 있다고 말한 바 있습니다. 이러한 해커 소프트웨어는 일찌기 자유 소프트웨어 운동 Free Software Movement을 전개한 리차드 스톨만 Richard Stallman, 인터넷 혁명을 가져온 월드 와이드 웹 World Wide Web의 창시자 팀 버너스 리 Sir Tim Berners-Lee, 리눅스 Linux를 만들어 소.. 더보기
[인공지능 만화] 35. 의사결정트리 알고리즘의 역사 램덤 포레스트와 X G BOOST 로스 퀸란이 만든 알고리즘은 반복이진분류법인 ID3(Iterative Dichotomizer 3)이며, 이후 C4.5에서 C5.0으로 발전합니다. 이 알고리즘들은 집합을 분류할 때 엔트로피 Entropy라는 '집합의 불확실성 정도'로 판단합니다. 이 엔트로피의 개념은 클로드 섀넌의 정보엔트로피에서 가져온 것입니다. 이런 집합의 분류법은 엔트로피 외에도 더 있습니다. 존 하티건 J. A. Hartigan이 만든 CHAID(Chi-squared Automatic Intersection Detection)에서는 카이제곱 χ2을 썼고, 레오 브라이먼 Leo Breiman의 CART(Classification And Regression Trees) 알고리즘에서는지니계수(Gini Index)를 썼습니다. 지니계수란.. 더보기
[인공지능 만화] 34. 의사결정트리 알고리즘의 역사, 얼 헌트와 로스 퀸란 데이터과학을 공부하는 분들이라면 적어도 한 번은 들어보셨을 Kaggle. Kaggle이 2010년 시작되었을 때부터 가장 많이 쓰이는 알고리즘이 Random Forest, XGBoost입니다. 이 알고리즘의 기원에 대해 알아봅니다. 의사결정트리 알고리즘은 매우 직관적입니다. 얼 헌트 Earl (Buz) Hunt 는 인간 및 인공지능 분야의 위대한 개척자 중 한 명입니다. 1954년 스탠포드 대학을 마치고 3년동안 미 해병대에서 장교근무하고, 1960년 예일대 심리 및 컴퓨터과학 전공으로 박사학위를 받습니다. 얼 헌트는 예일대 박사학위 논문에서 앨런 뉴얼 Allen Newell과 허버트 사이먼 Herbert A. Simon의 이론을 시뮬레이션하여 문제해결에 적용했습니다. 그가 만든 Concept Learn.. 더보기
[인공지능 만화] 33. 선이 아닌 평면으로 데이터를 분류하다, SVM 1995년 코리나 코테스 Corinna Cortes와 블라디미르 배프닉 Vladimir Vapnik은 잘못 분류된 자료들을 허용하는 변형된 최대 마진 분류기를 제안합니다. '네/아니오'라는 결과를 내야하는 자료들을 분할하는 초평면이 존재하지 않는다고 가정할 때 여전히 가장 가까이 위치한 제대로 분류된 자료들의 거리를 최대화하면서 주어진 자료를 가능한 제대로 분리하는 초평면을 찾는 알고리즘입니다. 이 아이디어는 1963년 블라디미르 배프닉과 알렉세이 체르보넨키스 Alexey Chervonenkis가 처음 생각해냈고, 30년 후인 1992년 번하드 보서 Bernhard Boser, 이자벨 구욘 Isabelle Guyon, 블라디미르 배프닉이 커널기법을 적용한 비선형 분류기로 마진을 극대화하기 위한 방법을 제.. 더보기
[인공지능 만화] 32. 추가정보로 확률을 업데이트하다, 나이브 베이지언 구글의 지메일이나 네이버 메일을 사용하다보면 자동으로 스팸메일이 분류되어 별도로 보관되는 기능을 발견할 수 있습니다. 어떤 원리로 검사하는 걸까요? 오늘은 스팸메일이나 문서분류에 많이 쓰이는 머신러닝 알고리즘인 나이브 베이즈 Naïve Bayesian에 대해 알아봅니다. 데이비드 헤커맨 David Heckerman은 스탠포드 대학에서 바이오인포매틱스 Bioinfomatics를 전공하고, 1992년부터 마이크로소프트에서 확률론에 기반한 인공지능을 연구하고 있습니다. 1997년 어느날 데이비드 헤커맨에게 스팸메일이 하나 도착합니다. 기본적으로 그 문제는 텍스트분류 문제에 해당하는데 헤커맨은 다른 방식으로 접근합니다. 때마침 1998년 스탠포드 대학원에 다니면서 여름방학 인턴을 하던 메란 사하미 Mehran .. 더보기
[인공지능 만화] 31. 유유상종-친구를 보고 판단하기 K-최근접 이웃 알고리즘 k-최근접 이웃 k-nearest Neighbors 알고리즘은 분류와 회귀를 사용한 비(非)모수적 패턴인식 방법입니다. '비모수적'이란 모집단에 대한 정보 없이 접근하는 방식을 의미합니다. 1951년에 발간된 미공개 미국 항공의학 보고서에서 에블린 픽스 Evelyn Fix와 조셉 하지스 Joseph Lawson Hodges Jr. 는 패턴 분류를 위해 비모수적 방법으로 k-최근접 이웃 규칙을 발표합니다. 그 보고서는 처음으로 몇 가지 중요한 개념을 소개했습니다. 그것은 역사적으로도 의미가 있었지만 현재도 여전히 중요하게 쓰이고 있습니다. k-최근접 이웃 규칙을 만든 에블린 픽스는 1904년 미국 미네소타주 덜루스에서 태어나 미네소타 대학에서 수학 학사(1924), 교육학 석사(1925)를 마치고 고등학교.. 더보기
[인공지능 만화] 30. 가까운 것끼리 묶어주기 k-means는 누가 만들었나? 레이블 label(꼬리표, 식별자)이 있는 데이터로부터 모델을 만들어 레이블이 없는 데이터의 레이블을 예측하는 것을 머신러닝 machine learning에서는 지도학습 supervised learning의 '분류 classification'라고 합니다. 온라인 쇼핑몰이나 대선 캠프처럼 고객이나 상품, 유권자에 대한 레이블이 없고, 심지어 몇 개의 그룹으로 나누어야 하는 지도 알 수 없는 경우라면 어떻게 분류할 수 있을까요? 이렇게 레이블이 없는 데이터 내부의 패턴과 구조를 발견하는 것을 비지도학습 unsupervised learning이라고 하는데 그 중에서도 비슷한 속성끼리 묶어주는 알고리즘을군집화 clustering라고 합니다. k-means는 군집화 문제를 해결하는 가장 간단한 비지도학습 알고리즘.. 더보기
[인공지능 만화] 24. 로봇이 이어준 인연, 앤드류 응과 캐롤 라일리 개방형 온라인 교육사이트인 COURSERA를 공동창업해 MOOC(Massice Open Online Course) 붐을 일으켰던 앤드류 응 Andrew Ng, 吳恩達 중국계 미국인인 그는 1976년 영국에서 태어났지만 홍콩출신 부모님 덕분에 어린 시절을 주로 홍콩과 싱가포르에서 자랐습니다. 1997년 미국 카네기멜론대학에서 컴퓨터과학을 전공한 후 MIT와 UC버클리에서 석박사과정을 마칩니다. 이후 스탠포드대학 교수로 일하며 자율비행 헬리콥터, 인공지능 로봇 STAIR 프로젝트를 추진하며 일찌기 두각을 나타냅니다. 앤드류 응은 인공지능을 21세기 산업전반을 관통하는 새로운 전기(electrocity)라고 생각하는 분입니다. 그래서 인공지능이 4차산업혁명의 핵심이라고 하지않나 싶네요. 로봇분야에서 이뤄낸 앤.. 더보기
[인공지능 만화] 23. 구글의 천재 엔지니어, 제프 딘 잘 생겼고, 키도 늘씬하게 크고, 근육질 몸매에 눈도 깊고, 목소리도 좋은데 머리는 구글에서 최고 천재. 구글 AI 총괄 제프 딘 Jeff Dean입니다. 딘은의료 인류학자와 공중보건 역학자의 아들로 태어나 미국 곳곳은 물론 스위스제네바, 우간다, 소말리아 등 세계 여러나라에서 자랐습니다. 이미 고등학교와 대학교 시절 세계보건기구(WHO)에서 사용하는 소프트웨어를 제작하였고 1999년 구글의 25번째 직원으로 입사하여 이후 구글이 개발하고 출시한 핵심 소프트웨어 가운데 그의 손을 거치지 않은 것이 없다고 보시면 됩니다. 워낙 지대한 영향력을 미친 신화적인 인물이다 보니 그에 관한 우스개 소리도 많습니다. 2011년 초 어느날 딘은 구글 캠퍼스 내 건물 층마다 있는 일종의 휴게실인 마이크로 키친에서 스탠포.. 더보기
[인공지능 만화]22. 딥러닝의 대모, 페이페이 리 컴퓨터 역사에도 많은 여성들의 기여가 있었습니다. 최초의 프로그래머 에이다 러브레이스 킹 Augusta Ada King, Countess of Lovelace, 코볼 언어를 만드는 데 기여하고, 디버그라는 단어를 만들어낸 그레이스 호퍼 Grace Brewster Murray Hopper, IBM에서 RDBMS의 CBO(Cost Based Optimizer; 비용기반 탐색계획 최적화)를 만든 패트리시아 셀링거 Patricia Selinger 새로운 기술 트렌드를 주도하고 있는 머신러닝 분야에서도 독보적인 여성 엔지니어가 있었으니 바로 페이페이 리 Fei-Fei Li 입니다. 16살때 부모님과 함께 중국에서 미국으로 건너간 페이페이 리는 아메리칸드림을 이루어냅니다. 부모님은 중국에서는 지식인이었지만 미국에 .. 더보기