지난 시간 정리

15강 ~ 19강 MLE 정리

 

MLE(최대우도추정법)에 대한 심층적인 이해를 위해 15강에서는 확률의 철학적 접근부터 시작하여 19강까지 이어지는 과정을 다루었습니다. 위 그림은 15강부터 현재까지의 내용을 요약한 것입니다.

 

최대가능도 구하기 요약

MLE 계산 단

 

이전 강의를 충실히 따라오신 분이라면 위 그림만 보셔도 주요 개념이 정리될 것입니다. 복습이 필요하신 분들은 19강 5분 40초까지의 내용을 다시 보시면 도움이 될 것입니다.

강의 보러 가기: https://youtu.be/BqQKI74ym1A?si=qSSM_0iUVfBjbQXJ

정규분포의 MLE

정규분포 MLE 직관적 설명

19강 강의 5분 41초부터 가우시안 분포(정규분포)에 대한 MLE 설명이 진행됩니다.

 

이번 예시에서는 제주도 옆 우도의 고양이 무게를 측정하여 분석하는 과정을 통해 정규분포의 MLE를 이해해 봅시다. 우도 고양이들의 몸무게가 정규분포를 따른다고 가정한 후, 10마리의 고양이 무게를 측정한 결과는 다음과 같습니다:

 

[48, 52, 47, 49, 50, 53, 51, 50, 51, 48]

 

고양이 10마리의 평균과 분산을 계산한 결과, 평균은 50, 분산은 2.8이 나왔습니다. 그렇다면, 이 고양이들의 무게가 어떤 정규분포에서 나왔을 가능성이 가장 높을까요?

 

당연히 평균이 50이고 분산이 2.8인 정규분포에서 뽑혔을 확률이 가장 높을 것입니다.

정규분포의 MLE 수학적 설명

 

이제 MLE를 통해 평균과 분산이 얼마일 때 Likelihood 함수가 최대가 되는지 수학적으로 구해보겠습니다. 정규분포의 확률 밀도 함수(PDF)는 위 그림의 1번과 같은 형태를 가집니다.

 

가우시안 분포 또는 정규분포라고 하는 저 식은 사실 저도 잘 모릅니다. 한 번도 증명해 본 적이 없습니다. 그냥 고등학교 때부터 봐서 익숙한 느낌뿐입니다. ChatGPT에 물어보면 적분이 1인 성질을 이용해서 증명한다고 돼있습니다. 그럼 자연상수 e가 들어가는 식이라는 건 이미 알고 있다는 말인데 그건 또 어떻게 알게 됐는지... 저는 정규분포 외 포아송분포, t분포 등 이 분포들의 확률밀도함수는 받아들이기로 했습니다. 도전하실 분은 응원합니다.

 

아무튼, 가우시안 분포는 $\mu$(평균)와 $\sigma$(분산)에 parameterized 된 확률밀도함수를 가지고 있다는 것을 알 수 있습니다. 그리고 함수를 보면 직관적으로는 우리가 익숙한 "종"모양의 분포가 되겠다는 걸 알 수 있죠.

 

이제, Likelihood 함수를 로그 변환한 후에 미분하여  $\mu$와 $\sigma$를 최대화하는 값을 구해보면 아래 그림과 같은 결과를 얻을 수 있습니다.

 

이 결과는 우리의 데이터가 실제로 우리가 알고 있는 평균과 분산을 가지는 정규분포에서 나온 것이 가능도를 최대로 한다는 것을 수학적으로 증명합니다.

안녕하세요?

지난시간 정리

15강의 질문이 뭐였죠?

 

"우리가 빨간선을 찾는데 사용한 MSE가 과연 합리적인가?"

 

우리는 위 질문에 대해 "맞아, MSE는 합리적이야." 라는 결론을 내리기 위한 공부를 하고 있습니다.

(빨간선 찾기: 평균제곱오차로 우리의 선형회귀 모델을 수립하는 것)

 

만약 다른 방법으로도 우리의 모델을 찾는 식이 MSE와 같다면 우리는 MSE가 합리적이라는 확신을 가질 수 있을 것 입니다. 그래서 확률적 가정과 정규분포를 사용해서 합리적인 빨간선을 찾는 과정을 공부할 겁니다.

 

확률적 가정으로 우리의 모델을 찾기위해서 우리는 최대우도추정법(MLE, Maximu Likelihood Estimation)을 공부해야 합니다. 바로 MLE를 설명하고 싶었지만 많은 분들이 MLE를 어려워 하는 것을 봤고 저 역시도 이해하기 어려웠기에 아주 근본적인 원리부터 설명하는 것이 바람직하다고 판단하고 철학적 배경이 되는 존재론/인식론과 빈도주의자/베이지안 관점을 설명했습니다.

 

하지만, 철학에 관한 부분은 저도 잘 모르고 제 생각을 말씀드려서 틀린 내용을 말했을 가능성이 높습니다. 참고만 해주시기 바랍니다. 그리고 혹시, 잘 아시는 분이 계시면 가르쳐 주세요..

강의보러가기 : https://www.youtube.com/watch?v=hZqJZnzOSXk

 

베이즈 정리

 

아직 베이즈 정리를 본격적으로 공부하는 단계는 아닙니다. 베이즈 정리는 MLE를 다 공부한 후에 Logistic Regresssion을 공부하면서 다시 자세히 공부할 예정입니다.

 

그래도 지금 베이즈 정리를 언급하는 이유는 베이즈 정리에도 "Likelihood(우도)"라는 놈이 있기 때문입니다. 저는 최대우도추정법에서 우도를 공부하고 어느정도 이해했다고 생각한 후에 베이즈 정리에서 다시 우도를 봤을때 멘붕이였습니다. 그래서 저 같은 분이 없도록 베이즈 정리에서의 우도를 잠깐 보겠습니다. 

 

$$ P(\theta|D) = \frac{P(D|\theta)P(\theta)}{P(D)} $$

 

위 베이즈 정리 식을 자세히 알아보겠습니다.

  1. $P(\theta)$: Prior, 사전확률입니다.
  2. $P(D|\theta)$: likelihood, 우도입니다.
  3. $P(\theta|D)$: Posterior, 사후확률입니다.
  4. $P(D)$: Marginal Distribution of D, D의 주변분포입니다.

지난 강의에서 베이지안은 확률에 대해 사전 믿음(Prior)을 가지고 새로운 결과(Likelihood)를 받아들여 사전믿음을 업데이트(Posterior) 한다고 말씀드렸습니다. 동전던지기의 예를들면 동전이 Fair하다고 생각하고 $\theta$를 0.5라고 가정할 수 있습니다. 또는 동전의 모양을 분석하거나 주변에 그 동전에 대해 아는 사람들한테 물어봐서 $\theta$를 0.7로 믿을 수도 있습니다.

 

그리고 동전을 던지고 나온 결과로 $\theta$를 업데이트 해 나가는 겁니다.
(베이지안은 믿음을 업데이트 하는 반면, 빈도주의자는 무한의 시행결과로 확률을 정합니다. !!)

 

위 강의 내용에서 $P(\theta)$를 $\theta$의 확률이라고 했는데 이 부분은 틀린 얘기입니다. 더 정확하게 말하면 $P(\theta)$는 확률분포입니다. 그래서 정확히 쓰면, 아래와 같이 됩니다.

 

$$ P(\theta) = \begin{cases} 1 & \text{if } 0 \leq \theta \leq 1 \\
0 & \text{otherwise}
\end{cases} $$

 

$\theta$가 0에서 1의 범위일때 1이라는 겁니다. 연속확률분포이고 균등분포입니다. $\theta$는 확률값이니까 0에서 1사이 값을 가진다는 뜻이죠. 아직 확률분포를 다루지 않았습니다. 모르셔도 됩니다. (강의에서 $\beta$ 분포도 언급했고, 주변분포도 언급했지만 지금은 모르셔도 됩니다.)

 

지금은 아래 예제에 대해서 통찰력만 가지시면 됩니다.

 

ex> 동전의 앞면이 나올 확률 Prior를 0.5로 설정한 후에 동전을 10번 던진 결과가 앞면 7번 뒷면이 3번 나옴.

 

위 예제에서 사전믿음 Prior에 기반한 동전던지기 결과가 우도(likelihood)라는 것이고 아래와 같이 됩니다.

 

$$ \binom{10}{7} \theta^7 (1-\theta)^3 = \binom{10}{7} (1/2)^7 (1/2)^3 $$

 

우도의 $\theta$에 우리의 사전믿음 1/2를 대입했습니다. 그리고 이 우도는 우리의 사전믿음 Prior를 업데이트 하기 위해서 사용됩니다. 앞면이 7번 나왔으니까, 우리의 사전믿음 $\theta$는 어떻게 될까요? 네 0.7에 가까워 진다고 생각할 수 있는 겁니다.

 

우선 베이즈 정리는 여기까지만 이해하는 걸로 하겠습니다.

최대우도추정법(MLE)

베이즈정리에서 우도는? 기억하시나요?

네 맞습니다. 사전믿음을 업데이트하기 위해 사용되었습니다. 그래서 우리는 베이즈 정리에 있는 우도(likelihood)에 Prior $\theta = 0.5$를 대입해서 우도를 구하고 사전믿음을 업데이트 했습니다.

 

최대우도추정법서 $\theta$는 미지수입니다. 그래서 아래와 같이 식을 씁니다.

 

$$ L(\theta) = \binom{10}{7} \theta^7 (1-\theta)^3 $$

 

베이즈 정리에서와의 차이가 눈에 보이시나요? 우선 $L(\theta)$가 있습니다. $\theta$에 대한 함수라는 뜻입니다. 그리고 과연 $\theta$ 가 얼마일때 $L(\theta)$가 최대가 될 것이냐라는 것이죠.

 

눈치 빠르신분은 $L(\theta)$를 미분하고 미분값이 0 일때 최대값이라는 것을 예측하실 수 있을겁니다.

맞습니다. 그런데 조금 더 Skill을 씁니다. 계산을 쉽게하기 위한 방법으로 로그를 사용합니다.

 

직접 확인하는 계산은 다음 강에 하겠습니다.

+ Recent posts