본문 바로가기

만화

[인공지능 만화] 39. 데이터 분석의 슈퍼스타 벨 연구소에서 1970년대 우리가 잘 아는 B언어(켄 톰슨 Kenneth Lane Tompson, 데니스 리치 Dennis MacAlistair Ritchie 가 만듦)와 C언어(데니스 리치, 브라이언 커니헨 Brian Wilson Kernighan 이 만듦)가 만들어졌고, C언어에 기반하여 UNIX가 만들어졌습니다 그리고 1970년대 후반 역시 벨 연구소에서 통계분석용 언어를 거의 최초로 만들었는데 그것을 B언어, C언어 명명법에 따라 Statistics의 S(존 챔버스 John Chambers, 릭 베커 Rick Becker, 앨런 윌크스 Allan Wilks 가 만듦)라고 지었습니다. 그러고 보니 데이터 시각화의 중요성을 일찍이 강조했던 프란시스 앤스콤 Francis Anscombe 도 벨 연구소 .. 더보기
[인공지능 만화] 37. 빅데이터 시대를 열다. 하둡을 창시한 더그 커팅 더그 커팅 Doug Cutting은 오픈소스 프로젝트의 최대 성공작 중 하나인 Hadoop을 시작한 분입니다. 2006년, 대학원생 마이크 카파렐라 Michael J. Cafarella와 오픈소스 검색엔진의 하부 프로젝트인 하둡 Hadoop을 시작할 때는 이렇게까지 대규모로 커질 줄 몰랐습니다. 소프트웨어에는 두 가지 흐름이 있는데 더그 커팅 자신은 해커 소프트웨어 흐름에 속해 있다고 말한 바 있습니다. 이러한 해커 소프트웨어는 일찌기 자유 소프트웨어 운동 Free Software Movement을 전개한 리차드 스톨만 Richard Stallman, 인터넷 혁명을 가져온 월드 와이드 웹 World Wide Web의 창시자 팀 버너스 리 Sir Tim Berners-Lee, 리눅스 Linux를 만들어 소.. 더보기
[인공지능 만화] 36. RDBMS의 역사를 이끈 시대의 천재, 밥 마이너 요즘 데이터베이스 업계에서 가장 핫한 단어는 빅데이터입니다. 하지만 지난 30년간은 누가 뭐래도 관계형 데이터베이스 관리 시스템 RDBMS의 시대였습니다. RDBMS의 선두기업인 오라클의 Larry Ellison 래리 앨리슨 회장은 세계 몇 째 가는 부자이며 오라클은 기업용 소프트웨어 시장의 선두를 지키고 있습니다. (물론 빅데이터 세상에서는 해당되지 않는 이야기입니다만) 이러한 오라클도 약 40년 전에는 실리콘벨리의 작은 스타트업 기업이었습니다. 이 오라클을 통해 RDBMS 시대를 열어제낀 시대의 천재가 있었습니다. 밥 마이너 Bob Miner가 그 주인공입니다. 아제르바이젠에서 이주한 이란계 이민가정에서 태어난 밥 마이너는 일리노이 대학에서 수학을 전공하고 AMPEX사에서 CIA 관련 프로젝트를 하면.. 더보기
[인공지능 만화] 35. 의사결정트리 알고리즘의 역사 램덤 포레스트와 X G BOOST 로스 퀸란이 만든 알고리즘은 반복이진분류법인 ID3(Iterative Dichotomizer 3)이며, 이후 C4.5에서 C5.0으로 발전합니다. 이 알고리즘들은 집합을 분류할 때 엔트로피 Entropy라는 '집합의 불확실성 정도'로 판단합니다. 이 엔트로피의 개념은 클로드 섀넌의 정보엔트로피에서 가져온 것입니다. 이런 집합의 분류법은 엔트로피 외에도 더 있습니다. 존 하티건 J. A. Hartigan이 만든 CHAID(Chi-squared Automatic Intersection Detection)에서는 카이제곱 χ2을 썼고, 레오 브라이먼 Leo Breiman의 CART(Classification And Regression Trees) 알고리즘에서는지니계수(Gini Index)를 썼습니다. 지니계수란.. 더보기
[인공지능 만화] 34. 의사결정트리 알고리즘의 역사, 얼 헌트와 로스 퀸란 데이터과학을 공부하는 분들이라면 적어도 한 번은 들어보셨을 Kaggle. Kaggle이 2010년 시작되었을 때부터 가장 많이 쓰이는 알고리즘이 Random Forest, XGBoost입니다. 이 알고리즘의 기원에 대해 알아봅니다. 의사결정트리 알고리즘은 매우 직관적입니다. 얼 헌트 Earl (Buz) Hunt 는 인간 및 인공지능 분야의 위대한 개척자 중 한 명입니다. 1954년 스탠포드 대학을 마치고 3년동안 미 해병대에서 장교근무하고, 1960년 예일대 심리 및 컴퓨터과학 전공으로 박사학위를 받습니다. 얼 헌트는 예일대 박사학위 논문에서 앨런 뉴얼 Allen Newell과 허버트 사이먼 Herbert A. Simon의 이론을 시뮬레이션하여 문제해결에 적용했습니다. 그가 만든 Concept Learn.. 더보기
[인공지능 만화] 33. 선이 아닌 평면으로 데이터를 분류하다, SVM 1995년 코리나 코테스 Corinna Cortes와 블라디미르 배프닉 Vladimir Vapnik은 잘못 분류된 자료들을 허용하는 변형된 최대 마진 분류기를 제안합니다. '네/아니오'라는 결과를 내야하는 자료들을 분할하는 초평면이 존재하지 않는다고 가정할 때 여전히 가장 가까이 위치한 제대로 분류된 자료들의 거리를 최대화하면서 주어진 자료를 가능한 제대로 분리하는 초평면을 찾는 알고리즘입니다. 이 아이디어는 1963년 블라디미르 배프닉과 알렉세이 체르보넨키스 Alexey Chervonenkis가 처음 생각해냈고, 30년 후인 1992년 번하드 보서 Bernhard Boser, 이자벨 구욘 Isabelle Guyon, 블라디미르 배프닉이 커널기법을 적용한 비선형 분류기로 마진을 극대화하기 위한 방법을 제.. 더보기
[인공지능 만화] 32. 추가정보로 확률을 업데이트하다, 나이브 베이지언 구글의 지메일이나 네이버 메일을 사용하다보면 자동으로 스팸메일이 분류되어 별도로 보관되는 기능을 발견할 수 있습니다. 어떤 원리로 검사하는 걸까요? 오늘은 스팸메일이나 문서분류에 많이 쓰이는 머신러닝 알고리즘인 나이브 베이즈 Naïve Bayesian에 대해 알아봅니다. 데이비드 헤커맨 David Heckerman은 스탠포드 대학에서 바이오인포매틱스 Bioinfomatics를 전공하고, 1992년부터 마이크로소프트에서 확률론에 기반한 인공지능을 연구하고 있습니다. 1997년 어느날 데이비드 헤커맨에게 스팸메일이 하나 도착합니다. 기본적으로 그 문제는 텍스트분류 문제에 해당하는데 헤커맨은 다른 방식으로 접근합니다. 때마침 1998년 스탠포드 대학원에 다니면서 여름방학 인턴을 하던 메란 사하미 Mehran .. 더보기
[인공지능 만화] 31. 유유상종-친구를 보고 판단하기 K-최근접 이웃 알고리즘 k-최근접 이웃 k-nearest Neighbors 알고리즘은 분류와 회귀를 사용한 비(非)모수적 패턴인식 방법입니다. '비모수적'이란 모집단에 대한 정보 없이 접근하는 방식을 의미합니다. 1951년에 발간된 미공개 미국 항공의학 보고서에서 에블린 픽스 Evelyn Fix와 조셉 하지스 Joseph Lawson Hodges Jr. 는 패턴 분류를 위해 비모수적 방법으로 k-최근접 이웃 규칙을 발표합니다. 그 보고서는 처음으로 몇 가지 중요한 개념을 소개했습니다. 그것은 역사적으로도 의미가 있었지만 현재도 여전히 중요하게 쓰이고 있습니다. k-최근접 이웃 규칙을 만든 에블린 픽스는 1904년 미국 미네소타주 덜루스에서 태어나 미네소타 대학에서 수학 학사(1924), 교육학 석사(1925)를 마치고 고등학교.. 더보기
[인공지능 만화] 30. 가까운 것끼리 묶어주기 k-means는 누가 만들었나? 레이블 label(꼬리표, 식별자)이 있는 데이터로부터 모델을 만들어 레이블이 없는 데이터의 레이블을 예측하는 것을 머신러닝 machine learning에서는 지도학습 supervised learning의 '분류 classification'라고 합니다. 온라인 쇼핑몰이나 대선 캠프처럼 고객이나 상품, 유권자에 대한 레이블이 없고, 심지어 몇 개의 그룹으로 나누어야 하는 지도 알 수 없는 경우라면 어떻게 분류할 수 있을까요? 이렇게 레이블이 없는 데이터 내부의 패턴과 구조를 발견하는 것을 비지도학습 unsupervised learning이라고 하는데 그 중에서도 비슷한 속성끼리 묶어주는 알고리즘을군집화 clustering라고 합니다. k-means는 군집화 문제를 해결하는 가장 간단한 비지도학습 알고리즘.. 더보기
[인공지능 만화] 24. 로봇이 이어준 인연, 앤드류 응과 캐롤 라일리 개방형 온라인 교육사이트인 COURSERA를 공동창업해 MOOC(Massice Open Online Course) 붐을 일으켰던 앤드류 응 Andrew Ng, 吳恩達 중국계 미국인인 그는 1976년 영국에서 태어났지만 홍콩출신 부모님 덕분에 어린 시절을 주로 홍콩과 싱가포르에서 자랐습니다. 1997년 미국 카네기멜론대학에서 컴퓨터과학을 전공한 후 MIT와 UC버클리에서 석박사과정을 마칩니다. 이후 스탠포드대학 교수로 일하며 자율비행 헬리콥터, 인공지능 로봇 STAIR 프로젝트를 추진하며 일찌기 두각을 나타냅니다. 앤드류 응은 인공지능을 21세기 산업전반을 관통하는 새로운 전기(electrocity)라고 생각하는 분입니다. 그래서 인공지능이 4차산업혁명의 핵심이라고 하지않나 싶네요. 로봇분야에서 이뤄낸 앤.. 더보기