본문 바로가기

위데이터랩 도서/야사와 만화로 배우는 인공지능

[인공지능 만화] 29. 모든 것은 평균으로 수렴한다, 회귀분석

머신러닝을 데이터를 학습하여 예측하고 분류하는 방법으로 정의하면가장 대표적인 머신러닝 알고리즘은 통계학에서 발전한 회귀분석입니다.

 

특히 회귀분석은 지금처럼 빅데이터가 등장하기 전에 비교적 적은 데이터로 독립변수나 종속변수의 관계를 수식으로 표현할 수 있어서 논문과 실무에서 가장 많이 사용하는 예측기법이었습니다.

좀 더 복잡한 예를 들어보면 아파트값이라는 종속변수와 그것을 결정하는 여러 독립변수(평수, 교통, 학군, 편의시설 등)와의 관계를 다중회귀분석이라는 방법으로 예측할 수 있습니다.

우리가 이렇게 예측할 수 있는 것은 데이터가 특정값으로 수렴되는 특징, 즉 '평균으로의 회귀' 성질이 있다고 생각하기 때문입니다. 이런 '회귀분석'을 고안한 분은 누구일까요?

골턴은 유전학에 관심이 많았습니다. 그가 했던 340개 이상의 논문 중에 부모와 자식의 키가 어떤 관계가 있는지 조사한 연구가 있었습니다.

골턴은 아빠 엄마의 키가 다소 차이가 있어 이를 보정하여 부모의 평균키를 만들었고, 이를 중간키라고 불렀습니다. 그리고 그 키를 그룹으로 나누어 그래프로 표현하였습니다.

그는 이에 대한 논문을 출간했으며,그 제목이 < Regression toward Mediocrity in Hereditary Stature >입니다.

한 가지 재미있는 사실은 '평균으로의 회귀'를 수식을 통해 알아낸 것이 아니라각 개별값에 대한 선을 잘 그어서 알아냈다는 것입니다.

'평균으로의 회귀'에 적용된 수식은 더 유명한 분들이 등장합니다.
바로 최소제곱법이라는 수식입니다. 아래 두 분의 말씀을 들어볼까요?

역사적으로 실제 먼저 고안한 가우스가 만든 것이라고 인정한다네요.
최소제곱법이란 점과 점 사이를 지나는 선을 구할 때 각 점과 그 선의 거리가 최소가 되는 선을 구하는 방법입니다.

앞 장의 가우스는 그 식으로 화성과 목성 사이의 행성 세레스의 궤도를 구했습니다.
이 최소제곱법으로 회귀분석의 회귀식을 구할 수 있습니다.  그런데 최소제곱법이 먼저 나왔네요?