16강 [최대우도추정법, MLE 2부] Bayes 정리에 있는 우도와 MLE 소개

syAI 2024. 8. 24. 12:34

2024. 8. 24. 12:34

안녕하세요?

지난시간 정리

15강의 질문이 뭐였죠?

"우리가 빨간선을 찾는데 사용한 MSE가 과연 합리적인가?"

우리는 위 질문에 대해 "맞아, MSE는 합리적이야." 라는 결론을 내리기 위한 공부를 하고 있습니다.

(빨간선 찾기: 평균제곱오차로 우리의 선형회귀 모델을 수립하는 것)

만약 다른 방법으로도 우리의 모델을 찾는 식이 MSE와 같다면 우리는 MSE가 합리적이라는 확신을 가질 수 있을 것 입니다. 그래서 확률적 가정과 정규분포를 사용해서 합리적인 빨간선을 찾는 과정을 공부할 겁니다.

확률적 가정으로 우리의 모델을 찾기위해서 우리는 최대우도추정법(MLE, Maximu Likelihood Estimation)을 공부해야 합니다. 바로 MLE를 설명하고 싶었지만 많은 분들이 MLE를 어려워 하는 것을 봤고 저 역시도 이해하기 어려웠기에 아주 근본적인 원리부터 설명하는 것이 바람직하다고 판단하고 철학적 배경이 되는 존재론/인식론과 빈도주의자/베이지안 관점을 설명했습니다.

하지만, 철학에 관한 부분은 저도 잘 모르고 제 생각을 말씀드려서 틀린 내용을 말했을 가능성이 높습니다. 참고만 해주시기 바랍니다. 그리고 혹시, 잘 아시는 분이 계시면 가르쳐 주세요..

강의보러가기 : https://www.youtube.com/watch?v=hZqJZnzOSXk

베이즈 정리

아직 베이즈 정리를 본격적으로 공부하는 단계는 아닙니다. 베이즈 정리는 MLE를 다 공부한 후에 Logistic Regresssion을 공부하면서 다시 자세히 공부할 예정입니다.

그래도 지금 베이즈 정리를 언급하는 이유는 베이즈 정리에도 "Likelihood(우도)"라는 놈이 있기 때문입니다. 저는 최대우도추정법에서 우도를 공부하고 어느정도 이해했다고 생각한 후에 베이즈 정리에서 다시 우도를 봤을때 멘붕이였습니다. 그래서 저 같은 분이 없도록 베이즈 정리에서의 우도를 잠깐 보겠습니다.

$$ P(\theta|D) = \frac{P(D|\theta)P(\theta)}{P(D)} $$

위 베이즈 정리 식을 자세히 알아보겠습니다.

$P(\theta)$: Prior, 사전확률입니다.
$P(D|\theta)$: likelihood, 우도입니다.
$P(\theta|D)$: Posterior, 사후확률입니다.
$P(D)$: Marginal Distribution of D, D의 주변분포입니다.

지난 강의에서 베이지안은 확률에 대해 사전 믿음(Prior)을 가지고 새로운 결과(Likelihood)를 받아들여 사전믿음을 업데이트(Posterior) 한다고 말씀드렸습니다. 동전던지기의 예를들면 동전이 Fair하다고 생각하고 $\theta$를 0.5라고 가정할 수 있습니다. 또는 동전의 모양을 분석하거나 주변에 그 동전에 대해 아는 사람들한테 물어봐서 $\theta$를 0.7로 믿을 수도 있습니다.

그리고 동전을 던지고 나온 결과로 $\theta$를 업데이트 해 나가는 겁니다.
(베이지안은 믿음을 업데이트 하는 반면, 빈도주의자는 무한의 시행결과로 확률을 정합니다. !!)

위 강의 내용에서 $P(\theta)$를 $\theta$의 확률이라고 했는데 이 부분은 틀린 얘기입니다. 더 정확하게 말하면 $P(\theta)$는 확률분포입니다. 그래서 정확히 쓰면, 아래와 같이 됩니다.

$$ P(\theta) = \begin{cases} 1 & \text{if } 0 \leq \theta \leq 1 \\
0 & \text{otherwise}
\end{cases} $$

$\theta$가 0에서 1의 범위일때 1이라는 겁니다. 연속확률분포이고 균등분포입니다. $\theta$는 확률값이니까 0에서 1사이 값을 가진다는 뜻이죠. 아직 확률분포를 다루지 않았습니다. 모르셔도 됩니다. (강의에서 $\beta$ 분포도 언급했고, 주변분포도 언급했지만 지금은 모르셔도 됩니다.)

지금은 아래 예제에 대해서 통찰력만 가지시면 됩니다.

ex> 동전의 앞면이 나올 확률 Prior를 0.5로 설정한 후에 동전을 10번 던진 결과가 앞면 7번 뒷면이 3번 나옴.

위 예제에서 사전믿음 Prior에 기반한 동전던지기 결과가 우도(likelihood)라는 것이고 아래와 같이 됩니다.

$$ \binom{10}{7} \theta^7 (1-\theta)^3 = \binom{10}{7} (1/2)^7 (1/2)^3 $$

우도의 $\theta$에 우리의 사전믿음 1/2를 대입했습니다. 그리고 이 우도는 우리의 사전믿음 Prior를 업데이트 하기 위해서 사용됩니다. 앞면이 7번 나왔으니까, 우리의 사전믿음 $\theta$는 어떻게 될까요? 네 0.7에 가까워 진다고 생각할 수 있는 겁니다.

우선 베이즈 정리는 여기까지만 이해하는 걸로 하겠습니다.

최대우도추정법(MLE)

베이즈정리에서 우도는? 기억하시나요?

네 맞습니다. 사전믿음을 업데이트하기 위해 사용되었습니다. 그래서 우리는 베이즈 정리에 있는 우도(likelihood)에 Prior $\theta = 0.5$를 대입해서 우도를 구하고 사전믿음을 업데이트 했습니다.

최대우도추정법서 $\theta$는 미지수입니다. 그래서 아래와 같이 식을 씁니다.

$$ L(\theta) = \binom{10}{7} \theta^7 (1-\theta)^3 $$

베이즈 정리에서와의 차이가 눈에 보이시나요? 우선 $L(\theta)$가 있습니다. $\theta$에 대한 함수라는 뜻입니다. 그리고 과연 $\theta$ 가 얼마일때 $L(\theta)$가 최대가 될 것이냐라는 것이죠.

눈치 빠르신분은 $L(\theta)$를 미분하고 미분값이 0 일때 최대값이라는 것을 예측하실 수 있을겁니다.

맞습니다. 그런데 조금 더 Skill을 씁니다. 계산을 쉽게하기 위한 방법으로 로그를 사용합니다.

직접 확인하는 계산은 다음 강에 하겠습니다.

'Machine Learning' 카테고리의 다른 글

18강 [최대우도추정법, MLE 4부] MLE 완전정복, Log Likelihood의 이해 (4)	2024.09.01
17강 [최대우도추정법, MLE 3부] 로또확률 및 이항분포 (0)	2024.08.31
15강 [최대우도추정법 MLE 1부] 확률에 대한 철학적 접근(MSE는 합리적인가?) (0)	2024.08.21
14강 서브노트 (Parameter, GD, Overfitting, Dropout) (0)	2024.08.12
12강 최적화와 그라디언트 디센트 (0)	2024.07.30

AI 고등학교