본문 바로가기

인공지능

[인공지능 만화] 46. 파이썬 데이터 분석의 절대지존 판다스의 아버지, 웨스 매키니 이번 이야기에서 소개할 분은 데이터 분석도구에 중점을 둔 오픈소스 소프트웨어 개발자인 웨스 매키니 Wes McKinney 입니다. 그의 관심사는 사용자 생산성 향상 성능 및 효율성 향상 데이터 상호 운용성 향상 입니다. 그 목표로 만들어진 것이 판다스 pandas 입니다. 1985년 출생1998~2001년 비디오게임 스피드런 TOP2006년말 MIT 졸업(이론수학 전공) 이 때까지만 해도 웨스 매키니는 파이썬 Python 을 전혀 몰랐습니다. 대학에서 배운 것은 알고리즘 개론과 Java 초급코스 뿐이었습니다. 대학 졸업 후 2007년부터 ACQ Capital Management 사의 Front Quant Research 팀에서 근무했습니다. 그곳에는 많은 박사들이 SQL과 엑셀(스프레드 시트), 그리고 .. 더보기
[인공지능 만화] 45. 파이썬으로 빅데이터 시각화의 문을 열다, 존 헌터 파이썬 소프트웨어 재단(Python Software Foundation)에서는 매년 파이썬 커뮤니티에 지속적으로 기여한 공로에 존경과 감사의 의미로 Distinguished Service Award를 수여하고 있습니다. 이 상의 첫 수상자는 존 헌터 John D. Hunter입니다. matplotlib 창시자인 존 헌터는사후에 이 상을 받았습니다. 그는 시카고 대학의 신경생물학 Neurobiology 박사후과정에서 간질 발작 데이터를 연구하는 도중 matlab이 만족스럽지 않아 직접 만들어 버립니다. 당시에는 수학의 그래프를 그리려면 matlab을 이용하지 않으면 안되었던 때입니다. matplotlib은 멋진 시각화로 매우 강력하게 개발을 촉진시켰습니다. 덕분에 많은 팀들이 파이썬 커뮤니티에 더 큰 기여.. 더보기
[인공지능 만화] 44. 주피터 노트북으로 세상을 이롭게, 페르난도 페레즈 페레즈는 대학원에서 물리학 연구를 할 때 기존 Python 명령어 쉘이 못내 불편하여 보다 더 개선된 대화형 쉘을 원했습니다.콜롬비아 출신 입자물리학 박사 2001년 미국 콜로라도 대학 박사과정 중 IPython 프로젝트 시작 2012년 프리소프트웨어상 수상 2014년 모든 환경을 웹으로 지원하는 Jupyter 프로젝트 시작 오픈소스 운동의 열렬한 지지자 페르난도 페리즈 Fernando Perez입니다. 페레즈는 대학원에서 물리학 연구를 할 때 기존 Python 명령어 쉘이 못내 불편하여 보다 더 개선된 대화형 쉘을 원했습니다. 그 아쉬움은 웹 브라우저에 터미널을 넣음으로써 해결할 수 있었습니다. 그 아이디어로 출발한 것이 IPython Notebook 프로젝트입니다. 그런데 그 좋은 걸 Python에만.. 더보기
[인공지능 만화] 43. 파이썬을 빅데이터 시대의 승자로 만든, 트라비스 올리펀트 파이썬으로 데이터과학 공부를 하는 초심자도 다들 한 번씩은 들어보셨을 NumPy, SciPy, Numba, Conda, XND, NumFOCUS, PyData를 한 사람이 다 만들었다면 믿어지실까요? 이번 주인공은 트라비스 올리펀트입니다. 그는 Brigham Young University에서 학사, 석사를 받고, Mayo Clinic에서 박사학위를 받았습니다. 2001~2007년까지 Brigham Young University에서 전기 컴퓨터공학 조교수를 맡아 확률이론, 전자기학, 인버스 문제, 신호처리 과정 등을 강의했습니다. 그리고 의생명 영상연구실의 책임자로서 위성원격감지, MRI, 초음파, 탄성 및 스캔 임피던스 영상을 연구합니다. 그러면서 그는 1997년부터 숫자 및 과학 프로그래밍, 특히 Nu.. 더보기
[인공지능 만화] 42. 빅데이터 시대 세상을 바꾼 파이썬 라이브러리들 빅데이터 시대 데이터분석의 가장 인기있는 툴이 되고있는 파이썬 Python을 있게 한 가장 큰 기여자를 뽑으라면 아마도 많은 분들이 파이썬을 만든 귀도 반 로섬 Guido van Rossum보다 넘파이 NumPy를 만든 트라비스 올리펀트 Travis E. Oliphant를 뽑지 않을까 싶습니다. 1995년 파이썬 커뮤니티에서는 matrix-sig라는 특별관심그룹 special interest group을 만듭니다. 다른 언어에는 다 있지만 파이썬에는 없는 배열 array 데이터타입을 만들기 위해서였습니다. 그 그룹의 일원이었던 MIT 대학원생 짐 허거닌 Jim Hugunin은 짐 펄톤 Jim Fulton의 matrix object를 기반으로 C로 구현한 Numeric이라는 모듈을 개발합니다. 1997년 .. 더보기
[인공지능 만화] 41. 딥러닝을 보다 쉬게 케라스 창시자, 프랑소와 숄레 딥러닝은 1986년 역전파 알고리즘의 발견과 1989년 얀 레쿤 Yann LeCun의 CNN(합성곱신경망) 알고리즘을 이용한 우편번호 인식 등의 진전으로 가능성을 보여주었지만 여전히 실제 활용은 불가능한 '연구실 안의 기술'로 기나긴 겨울을 통과하고 있었습니다. 2006년 제프리 힌튼 Geoffrey Everest Hinton 교수가 논문에서 RBM(Restricted Bolzman Machine)으로 초기화시켜 신경망을 깊게 구성하여 Vanishing Gradient 문제를 해결함으로써 딥러닝의 마지막 난제를 극복할 수 있는 가능성을 제시합니다. 이후 각 대학을 중심으로 딥러닝 신경망 구현을 위한 라이브러리들이 본격적으로 만들어지기 시작합니다. 그 첫 번째가 2010년 요슈아 벤지오 Yoshua Ben.. 더보기
[인공지능 만화] 40. 통계 툴이었던 R을 빅데이터 툴로 발전시킨, 해들리 위컴 R을 배우게 되면 누구나 접하게 되는 시각화 패키지 ggplot2 전처리 패키지 dplyr 문자열처리 패키지 stringr 등 현재 R에서 빅데이터 분석을 위한 대부분의 툴을 만든 사람은 뉴질랜드 오클랜드 대학 출신의 해들리 위컴 Hadley Alexander Wickham 입니다. 뉴질랜드 오클랜드 대학 통계학 학사, 석사를 마치고, 2008년 아이오와 주립대학에서 통계학 박사학위를 취득했는데 박사학위 과정을 공부하면서 실제로 많은 데이터를 분석하다가 전처리를 위해 reshape을 만들었고, 시각화를 위해 ggplot을 만들었습니다. 그리고 이러한 경험을 모아서 박사학위 논문을 에 대해 씁니다. 이 논문이 바로 reshape, ggplot2, 분석모델 시각화를 위한 몇가지 패키지 개발에 대한 내용입니다.. 더보기
[인공지능 만화] 39. 데이터 분석의 슈퍼스타 벨 연구소에서 1970년대 우리가 잘 아는 B언어(켄 톰슨 Kenneth Lane Tompson, 데니스 리치 Dennis MacAlistair Ritchie 가 만듦)와 C언어(데니스 리치, 브라이언 커니헨 Brian Wilson Kernighan 이 만듦)가 만들어졌고, C언어에 기반하여 UNIX가 만들어졌습니다 그리고 1970년대 후반 역시 벨 연구소에서 통계분석용 언어를 거의 최초로 만들었는데 그것을 B언어, C언어 명명법에 따라 Statistics의 S(존 챔버스 John Chambers, 릭 베커 Rick Becker, 앨런 윌크스 Allan Wilks 가 만듦)라고 지었습니다. 그러고 보니 데이터 시각화의 중요성을 일찍이 강조했던 프란시스 앤스콤 Francis Anscombe 도 벨 연구소 .. 더보기
[인공지능 만화] 38. 데이터 분석의 Hello World IRIS 데이터 더보기
[인공지능 만화] 37. 빅데이터 시대를 열다. 하둡을 창시한 더그 커팅 더그 커팅 Doug Cutting은 오픈소스 프로젝트의 최대 성공작 중 하나인 Hadoop을 시작한 분입니다. 2006년, 대학원생 마이크 카파렐라 Michael J. Cafarella와 오픈소스 검색엔진의 하부 프로젝트인 하둡 Hadoop을 시작할 때는 이렇게까지 대규모로 커질 줄 몰랐습니다. 소프트웨어에는 두 가지 흐름이 있는데 더그 커팅 자신은 해커 소프트웨어 흐름에 속해 있다고 말한 바 있습니다. 이러한 해커 소프트웨어는 일찌기 자유 소프트웨어 운동 Free Software Movement을 전개한 리차드 스톨만 Richard Stallman, 인터넷 혁명을 가져온 월드 와이드 웹 World Wide Web의 창시자 팀 버너스 리 Sir Tim Berners-Lee, 리눅스 Linux를 만들어 소.. 더보기