본문 바로가기

위데이터랩 도서/야사와 만화로 배우는 인공지능

[인공지능 만화] 32. 추가정보로 확률을 업데이트하다, 나이브 베이지언

구글의 지메일이나 네이버 메일을 사용하다보면

자동으로 스팸메일이 분류되어 별도로 보관되는 기능을 발견할 수 있습니다.

어떤 원리로 검사하는 걸까요?

오늘은 스팸메일이나 문서분류에 많이 쓰이는 머신러닝 알고리즘인

나이브 베이즈 Naïve Bayesian에 대해 알아봅니다.

데이비드 헤커맨 David Heckerman은 스탠포드 대학에서 바이오인포매틱스 Bioinfomatics를 전공하고,

1992년부터 마이크로소프트에서 확률론에 기반한 인공지능을 연구하고 있습니다.

1997년 어느날

데이비드 헤커맨에게 스팸메일이 하나 도착합니다.

기본적으로 그 문제는 텍스트분류 문제에 해당하는데

헤커맨은 다른 방식으로 접근합니다.

때마침 1998년 스탠포드 대학원에 다니면서 여름방학 인턴을 하던

메란 사하미 Mehran Sahami에게 숙제를 내줍니다.


나이브 베이지언 알고리즘으로 스팸필터링을 만들라고 시킨 것입니다.

이것은 훌륭한 성과를 거둡니다.

당시 빌 게이츠 Bill Gates는 매우 기뻐했습니다.

헤커맨이 사하미에게 숙제를 내준 것은 이런 생각을 했기 때문입니다.

스팸을 확인하기 위해 메시지의 세부내용을 다 볼 필요는 없어.
어떤 단어를 포함하고 있는지 살펴보면서 하나씩 확률을 높이는 거야.
마치 질병을 진단할 때처럼 말이지.

 

헤커맨과 동료들은 보다 정밀한 알고리즘을 개발하여

아웃룩과 핫메일, 익스체인지 서버에 매우 성공적으로 적용합니다.


지금은 마이크로소프트 뿐만아니라 거의 모든 스팸필터링 알고리즘으로 사용이 되고 있습니다.

헤커맨이 적용한 나이브 베이지언은 1970년대초 패턴인식에 관한 책에서 언급되기 시작했는데

1990년대가 되어서는 급격히 인기를 얻은 알고리즘입니다.


누가 처음 정의했는지는 확실하게 알려지지 않았습니다.

 

하지만 근본이 되는 베이즈 알고리즘은 토머스 베이즈 Thomas Bayes가 만들었습니다.

그는 1700년대 영국의 장로교 목사였으며, 수학자였습니다.

그는 목사였지만 신의 존재를 증명하기 위해

새롭게 나타나는 경험적 증거들로

기존에 알려진 믿음을 계속 업데이트하면서

확률을 높여가는 방법을 제시했습니다.

 

토마스 베이즈의 사후

그의 절친 철학자 리차드 프라이스 Richard Price는

친구의 유품을 정리하다가 특이한 확률론 개념을 발견하고는

영국 왕립학회에 에세이 < 확률론의 한 문제에 대한 에세이 An Essay towards solving a Problem in the Doctrine of Chances >를 보내어

토마스 베이즈를 세상에 드러냅니다.

베이즈 정리는 조건부 확률로서 아래 식으로 표현됩니다.


그림을 참고하세요.

데이비드 헤커맨이 활용한 나이브 베이지언은 다음과 같습니다.

 

나이브 베이지언은 여러 개의 조건이 엮여있을 경우 서로의 연관성을 다 고려할 수가 없어

각각의 조건이 독립적이라고 가정하고 간단하게 계산하는 방식입니다.


가정이 말이 안되는 것 같지만(그런 일은 이 세상에 드물 테지만)

그럼에도불구하고 나이브 베이지언은 현재 잘 쓰이고 있습니다.


(출처)

http://heckerman.com/david/

 

David Heckerman's Homepage

David Heckerman Distinguished Scientist, Amazon E-mail: heckerma@hotmail.com Research activities I am developing machine learning and statistical approaches for a variety of applications including genomics and vaccine design.  In my early work, I demonstr

heckerman.com

 

https://www.geekwire.com/2013/geek-week-david-heckerman/

 

Geek of the Week: Microsoft researcher David Heckerman is tackling some of the world’s biggest problems

What do spam email and HIV have in common? They're examples of the range of problems that longtime Microsoft researcher Dr. David Heckerman has battled during his career — applying his background as…

www.geekwire.com

 

https://ai.stanford.edu/users/sahami/bio.html

 

Mehran Sahami

Text Mining book available!     Ashok Srivastava (NASA) and I published a book entitled "Text Mining: Classification, Clustering, and Applications." The book is available from Amazon. CRC Press .-->

ai.stanford.edu

 

https://www.microsoft.com/en-us/research/publication/a-bayesian-approach-to-filtering-junk-e-mail/

 

A Bayesian Approach to Filtering Junk E-Mail - Microsoft Research

In addressing the growing problem of junk E-mail on the Internet, we examine methods for the automated construction of filters to eliminate such unwanted messages from a user’s mail stream. By casting this problem in a decision theoretic framework, we ar

www.microsoft.com

 

https://en.wikipedia.org/wiki/Bayes%27_theorem

 

Bayes' theorem - Wikipedia

P ( A ∣ B , C ) = P ( A , B , C ) P ( B , C ) = P ( B ∣ A , C ) P ( A , C ) P ( B , C ) = P ( B ∣ A , C ) P ( A ∣ C ) P ( C ) P ( B , C ) = P ( B ∣ A , C ) P ( A ∣ C ) P ( C ) P ( B ∣ C ) P ( C ) = P ( B ∣ A , C ) P ( A ∣ C ) P ( B ∣ C

en.wikipedia.org

 

https://en.wikipedia.org/wiki/Naive_Bayes_classifier

 

Naive Bayes classifier - Wikipedia

From Wikipedia, the free encyclopedia Jump to navigation Jump to search probabilistic classification algorithm In statistics, naive Bayes classifiers are a family of simple "probabilistic classifiers" based on applying Bayes' theorem with strong (naïve) i

en.wikipedia.org

 

https://en.wikipedia.org/wiki/Thomas_Bayes

 

Thomas Bayes - Wikipedia

British statistician accredited for formulating Bayes Theorem Thomas Bayes (; c. 1701 – 7 April 1761[2][3][note 1]) was an English statistician, philosopher and Presbyterian minister who is known for formulating a specific case of the theorem that bears

en.wikipedia.org

 

https://en.wikipedia.org/wiki/Richard_Price

 

Richard Price - Wikipedia

Welsh moral philosopher, nonconformist preacher and mathematician Richard Price FRS (23 February 1723 – 19 April 1791) was a Welsh moral philosopher, Nonconformist minister and mathematician. He was also a political reformer, pamphleteer, active in radic

en.wikipedia.org

 


적송 권건우 redpine71@wedatalab.com

http://blog.naver.com/redpine71 

 

적송 숲에서 한가로이 거닐다 : 네이버 블로그

동서문명 탐구의 기난긴 여정

blog.naver.com

 

공무원을 꿈꾸며 대학에 들어갔으나 동서양문화에 심취하여 수많은 사부님들을 찾아다녔고 기나긴 갈구끝에 서울 인사동과 중국 하남성 황토벌판 그리고 실리콘밸리에서 스승을 만났다. 지금은 산에서 내려와 많은 친구들과 동서문명을 융합시키는 새로운 도전의 여정에 있다.
前 삼성SDS technical architect
現 위데이터랩 대표이사
現 디랩아카데미 원장
現 성균관대, 한양대 겸임교수
現 세계진소왕태극권총회 서울분회장
#야만인 #동서양문화연구 #위데이터랩 #서예 #진소왕태극권

루나 허령

https://brunch.co.kr/@hvnpoet 

 

루나의 브런치

야만인이야기 만화가 | 마음공부하는 천상시인 루나의 브런치입니다. #마음공부 #모델링 #마인드맵 #서예 #진소왕태극권 #천상병 #서울데이터과학연구회 #물질이개벽되니정신을개벽하자 #곳곳

brunch.co.kr

 

컴퓨터과학과 소프트웨어공학을 전공하고, 지금은 금융회사의 상품과 서비스를 분석, 설계, 구현하는 일을 하고 있다. 대학 초년생 시절 마인드맵을 접한 이후 즐겁게 생각하는 방법을 깨달았고, 소프트웨어공학의 모델링 사상을 이해하고부터는 마인드맵과 모델링을 아우르는 마인드맵모델링을 연구 중이다. 세상에 대한 공학적인 접근 이외에도 마음공부와 서예, 태극권 등으로 자신과 세상의 경계를 넘어 진리를 탐구하고 있다.

#야만인 #마음공부 #마인드맵 #모델링 #서예 #진소왕태극권 #천상병