구글의 지메일이나 네이버 메일을 사용하다보면
자동으로 스팸메일이 분류되어 별도로 보관되는 기능을 발견할 수 있습니다.
어떤 원리로 검사하는 걸까요?
오늘은 스팸메일이나 문서분류에 많이 쓰이는 머신러닝 알고리즘인
나이브 베이즈 Naïve Bayesian에 대해 알아봅니다.
데이비드 헤커맨 David Heckerman은 스탠포드 대학에서 바이오인포매틱스 Bioinfomatics를 전공하고,
1992년부터 마이크로소프트에서 확률론에 기반한 인공지능을 연구하고 있습니다.
1997년 어느날
데이비드 헤커맨에게 스팸메일이 하나 도착합니다.
기본적으로 그 문제는 텍스트분류 문제에 해당하는데
헤커맨은 다른 방식으로 접근합니다.
때마침 1998년 스탠포드 대학원에 다니면서 여름방학 인턴을 하던
메란 사하미 Mehran Sahami에게 숙제를 내줍니다.
나이브 베이지언 알고리즘으로 스팸필터링을 만들라고 시킨 것입니다.
이것은 훌륭한 성과를 거둡니다.
당시 빌 게이츠 Bill Gates는 매우 기뻐했습니다.
헤커맨이 사하미에게 숙제를 내준 것은 이런 생각을 했기 때문입니다.
스팸을 확인하기 위해 메시지의 세부내용을 다 볼 필요는 없어.
어떤 단어를 포함하고 있는지 살펴보면서 하나씩 확률을 높이는 거야.
마치 질병을 진단할 때처럼 말이지.
헤커맨과 동료들은 보다 정밀한 알고리즘을 개발하여
아웃룩과 핫메일, 익스체인지 서버에 매우 성공적으로 적용합니다.
지금은 마이크로소프트 뿐만아니라 거의 모든 스팸필터링 알고리즘으로 사용이 되고 있습니다.
헤커맨이 적용한 나이브 베이지언은 1970년대초 패턴인식에 관한 책에서 언급되기 시작했는데
1990년대가 되어서는 급격히 인기를 얻은 알고리즘입니다.
누가 처음 정의했는지는 확실하게 알려지지 않았습니다.
하지만 근본이 되는 베이즈 알고리즘은 토머스 베이즈 Thomas Bayes가 만들었습니다.
그는 1700년대 영국의 장로교 목사였으며, 수학자였습니다.
그는 목사였지만 신의 존재를 증명하기 위해
새롭게 나타나는 경험적 증거들로
기존에 알려진 믿음을 계속 업데이트하면서
확률을 높여가는 방법을 제시했습니다.
토마스 베이즈의 사후
그의 절친 철학자 리차드 프라이스 Richard Price는
친구의 유품을 정리하다가 특이한 확률론 개념을 발견하고는
영국 왕립학회에 에세이 < 확률론의 한 문제에 대한 에세이 An Essay towards solving a Problem in the Doctrine of Chances >를 보내어
토마스 베이즈를 세상에 드러냅니다.
베이즈 정리는 조건부 확률로서 아래 식으로 표현됩니다.
그림을 참고하세요.
데이비드 헤커맨이 활용한 나이브 베이지언은 다음과 같습니다.
나이브 베이지언은 여러 개의 조건이 엮여있을 경우 서로의 연관성을 다 고려할 수가 없어
각각의 조건이 독립적이라고 가정하고 간단하게 계산하는 방식입니다.
가정이 말이 안되는 것 같지만(그런 일은 이 세상에 드물 테지만)
그럼에도불구하고 나이브 베이지언은 현재 잘 쓰이고 있습니다.
(출처)
https://www.geekwire.com/2013/geek-week-david-heckerman/
https://ai.stanford.edu/users/sahami/bio.html
https://www.microsoft.com/en-us/research/publication/a-bayesian-approach-to-filtering-junk-e-mail/
https://en.wikipedia.org/wiki/Bayes%27_theorem
https://en.wikipedia.org/wiki/Naive_Bayes_classifier
https://en.wikipedia.org/wiki/Thomas_Bayes
https://en.wikipedia.org/wiki/Richard_Price
적송 권건우 redpine71@wedatalab.com
http://blog.naver.com/redpine71
공무원을 꿈꾸며 대학에 들어갔으나 동서양문화에 심취하여 수많은 사부님들을 찾아다녔고 기나긴 갈구끝에 서울 인사동과 중국 하남성 황토벌판 그리고 실리콘밸리에서 스승을 만났다. 지금은 산에서 내려와 많은 친구들과 동서문명을 융합시키는 새로운 도전의 여정에 있다.
前 삼성SDS technical architect
現 위데이터랩 대표이사
現 디랩아카데미 원장
現 성균관대, 한양대 겸임교수
現 세계진소왕태극권총회 서울분회장
#야만인 #동서양문화연구 #위데이터랩 #서예 #진소왕태극권
루나 허령
컴퓨터과학과 소프트웨어공학을 전공하고, 지금은 금융회사의 상품과 서비스를 분석, 설계, 구현하는 일을 하고 있다. 대학 초년생 시절 마인드맵을 접한 이후 즐겁게 생각하는 방법을 깨달았고, 소프트웨어공학의 모델링 사상을 이해하고부터는 마인드맵과 모델링을 아우르는 마인드맵모델링을 연구 중이다. 세상에 대한 공학적인 접근 이외에도 마음공부와 서예, 태극권 등으로 자신과 세상의 경계를 넘어 진리를 탐구하고 있다.
#야만인 #마음공부 #마인드맵 #모델링 #서예 #진소왕태극권 #천상병
'위데이터랩 도서 > 야사와 만화로 배우는 인공지능' 카테고리의 다른 글
[인공지능 만화] 34. 의사결정트리 알고리즘의 역사, 얼 헌트와 로스 퀸란 (0) | 2021.06.22 |
---|---|
[인공지능 만화] 33. 선이 아닌 평면으로 데이터를 분류하다, SVM (0) | 2021.06.18 |
[인공지능 만화] 31. 유유상종-친구를 보고 판단하기 K-최근접 이웃 알고리즘 (0) | 2021.06.18 |
[인공지능 만화] 30. 가까운 것끼리 묶어주기 k-means는 누가 만들었나? (0) | 2021.06.18 |
[인공지능 만화] 29. 모든 것은 평균으로 수렴한다, 회귀분석 (0) | 2021.06.18 |