​지난 시간 정리

우리는 MSE(Mean Squared Error)를 사용하여 빨간 선을 찾는 것이 합리적인지 알아보기 위해 MLE(Maximum Likelihood Estimation)를 공부하고 있습니다. 지난 시간에는 MLE를 더 잘 이해하기 위해 이항분포와 함께 순열(Permutation)과 조합(Combination)을 공부했습니다. 

 

다시 제주도 옆 우도 예제를 보면서 MLE로 가봅시다.

$$ L(\theta) = P(D ; \theta) = \binom {10}{7}\theta^7(1-\theta)^3 $$

 

이항분포와 조합을 이해한 후 이 식이 더 잘 보일 것입니다. 마지막 식이 아직 어색하다면 이전 강의를 참고해 주세요. 이제, 개를 7번 고양이를 3번 봤을 때 정말 개를 볼 확률이 $\frac {7}{10}$이였을 때 최대우도가 되는지 보겠습니다. 다시 말해, $\theta = \frac {7}{10}$ 일 때 개를 7번 고양이를 3번 본 사건이 가장 "있음 직한 일"인지 확인하겠습니다.

강의 보러 가기: https://youtu.be/sjLQctg61iY?si=Iujle4rvpXWlKSxY

 

Likelihood의 가정 IID (Identically Independently Distributed)

우도의 가정을 분석해 봅시다.

$$ L(\theta) = P(D ; \theta), D \, are \, IID $$

$L(\theta)$는 $\theta$에 대한 Likelihood 함수라는 의미입니다. $P(D ; \theta)$는 $\theta$를 파라미터로 하는 데이터의 확률을 의미합니다. 베이즈 정리의 Likelihood와 약간 차이가 있습니다. 베이즈 정리에서 우도는 $P(D | \theta)$ 였습니다. $\theta$는 사전믿음(사전 확률, Prior)이었고 이를 기반으로 Data의 확률이 어떻게 되느냐의 관점이었습니다.

 

Data가 IID 하다는 가정을 해야 합니다. 엄청 어렵게 다가오실 수도 있지만 사실 별거 아닙니다. 우도를 돌면서 개를 볼 때 첫 번째 개를 봤어도 두 번째로 개를 볼 확률이 변하지 않는다는 겁니다.
(사실은 변할 수도 있는 거죠? 개를 이미 봤으니까 두 번째로 볼 때는 처음 본 개를 제외하고 계산할 수 있는 가정을 할 수 있는 거니까요)

이렇게 가정해야 이항분포 식이 나옵니다. 이항분포를 배울 때 각 사건이 독립적이다라는 가정을 했던 거 기억하시는 분들도 있을 겁니다. 동전 던지기로 생각해 보면, 바로 직전에 동전이 앞면이 나왔다고 다음에 앞면이 나올 확률이 변하는 게 아니라는 뜻입니다.

Likelihood 수식

최종적으로 식은 다음과 같이 표현됩니다

$$ L(\theta) = P(D ; \theta) = \binom {10}{7}\theta^7(1-\theta)^3 $$

 

그럼 $L(\theta)$를 최대로 하는 $\theta$는 어떻게 구할까요? 최댓값, 최솟값을 구하려면 미분이라는 좋은 방법이 있습니다. 그런데 위 식을 보니까, 미분이 너무 복잡해 보입니다. $\theta^{10}$ 항이 나오는 게 미분하기 싫어지는 기분이 확 듭니다.(미분이 불가능하다는 뜻이 아닙니다.)

 

우리는 이럴 때 Log를 사용할 수 있습니다.

Log의 도입

왜 로그를 도입해도 될까요? 위 강의 9분 44초부터 자세히 설명했으니 원리가 궁금하신 분들은 강의를 보시는 게 좋습니다.

 

간단히 말하면, 로그를 취해도 $0\le\theta\le1$에서 log를 취하기 전 $L(\theta)$와 비슷한 형태를 유지하기 때문입니다.  즉, 같은 $\theta$에서 최댓값을 갖는다는 겁니다. 또한, 로그를 사용하면 곱셈을 덧셈으로 바꿀 수 있습니다. 로그를 취한 우도를 log Likelihood라고 하고, 이를  $l(\theta)$로 정의합니다.

$$ l(\theta) = \log L(\theta) = \log \theta^7 (1-\theta)^3 $$

 

위와 같이 됩니다. 위 식을 보니까 훨씬 미분하기 수월하다는 게 느껴집니다.

결론

위 식을 미분해서 $theta$값을 구하면 $\frac {7}{10}$이 나옵니다. 이로써, 우리의 직관대로 개를 볼 확률이 $\frac {7}{10}$일 때 우리의 Likelihood 함수가 최댓값을 갖는 것을 확인할 수 있었습니다.

세부풀이와 원리가 궁금하신 분은 강의를 시청해 주세요 ^^. 강의 안 봐도 되는 분들을 위해서 우리 예제의 Likelihood와 Log Likelyhood 함수의 그래프를 첨부합니다.

Likelihood 함수
log Likelihood 함수

 

​지난시간 정리

우리는 빨간선을 찾기 위해 사용한 MSE가 합리적이였는가를 공부하고 있습니다. 이를위해 MLE(Maximum Likelihood Estimation)를 공부해야 합니다. 

 

MLE를 본격적으로 공부하기 전에 베이즈 정리를 살펴 봤습니다. 베이즈 정리에서도 우도(Likelihood)가 나왔습니다.  

베이즈 정리와 우도

베이즈 정리에서의 우도는 왜 사용했죠? 기억하시나요?

우리의 사전믿음(사전 확률, Prior)을 업데이트하기 위해 사용했습니다. 베이즈 정리에서의 우도는 주어진 $\theta$ 값에 따라 나오는 데이터의 확률을 의미하며, 이는 우리의 사전 믿음을 새로운 데이터에 기반해 갱신하는데 사용됩니다. .

 

15강에서 학습한 관점으로 설명하겠습니다. 베이즈 정리는 베이지안 관점을 반영하며, 이는 확률을 사전믿음의 업데이트 과정으로 보는 시각입니다. 반면, MLE는 빈도주의자 관점에서 접근합니다. 빈도주의는 관찰된 데이터를 기반으로 확률을 추정하는 방법으로, MLE는 이 관점에서 매우 중요한 도구입니다.

MLE에서의 우도 

MLE에서 우도는 사전믿음과는 다르게 다루어집니다. MLE는 관찰된 데이터를 기반으로 그 데이터를 가장 잘 설명할 수 있는 파라미터를 추정하는 방법입니다. 예를 들어, MLE는 "우도가 가장 높은 파라미터가 무엇인가?"라는 질문을 통해 우리가 관찰한 데이터를 가장 있음직하게 만드는 파라미터를 찾습니다. 따라서, "가능도"라는 표현이 우도보다 더 적절할 수 있습니다. 혹은 그냥 Likelihood라고 생각해도 무방합니다. 저는  "있음직한 일"이라는 표현이 더 직관적이고 마음에 듭니다. 

 

Likelihood는 사실 직관적으로 이해하기 너무 쉽습니다. 예제로 보겠습니다. 

 

 

  • 제주도 옆 우도에서의 관찰: 우도에서 개를 7번, 고양이를 3번 관찰했다고 가정합시다. 그렇다면, 개를 볼 확률이 얼마일 때 이 사건이 가장 있음직했을까요?
  • 동전 던지기: 동전을 10번 던져서 앞면이 7번, 뒷면이 3번 나왔다고 가정합시다. 앞면이 나올 확률이 얼마일 때 이 사건이 가장 있음직했을까요?

 

두 문제에 대한 답은 $\frac{7}{10}$ 입니다. 직관적으로도 이해할 수 있지만, 수학적으로도 이를 확인해 볼 수 있습니다. 그 전에 순열(Permutation)과 조합(Combination) 개념을 다시 살펴봅시다.

강의보러가기 : https://www.youtube.com/watch?v=JJkb1QdZy0s

로또확률

로또 다들 하시죠?

로또는 45개 숫자 중 6개를 맞추는 겁니다. 특별히 설명안해도 다들 아시리라 생각됩니다. 그럼 로또 확률은 어떻게 될까요? 경우의 수가 $_{45}C_6$ 이고 아래와 같이 계산합니다. 

$$_{45}C_6=\frac{^{45}P_6}{6!}=\frac{45!}{6!\left(45-6\right)!} = 8,145,060 $$

 

약 8백만분의 1입니다. 왜 당첨이 안되는지 알겠죠? 저는 100명 이상 참가하는 행사에서 행운권 당첨된 적도 한 번도 없습니다.

 

로또에는 두가지 특성이 있습니다.

  1. 비복원 추출
  2. 순서를 고려하지 않음.

비복원 추출은45개 번호 중에 6개를 뽑는데 하나뽑고 다음 수를 뽑을 때 이 전에 뽑았던 수를 다시 넣지 않는다는 겁니다. 예를들어 처음에 1을 뽑았으면 두 번째에는 2~45 중의 숫자를 뽑느다는 겁니다.

 

순서를 고려하지 않는다는건 추첨할때 1,2,3,4,5,6 의 순서로 뽑던 6,5,4,3,2,1의 순서로 뽑던 내가 선택한 번호가 1,2,3,4,5,6 이면 당첨이라는 거죠. 만약 순서까지 맞춰야 한다면 Permutaion의 경우의 수가 되서 더 당첨이 어려워지는 겁니다.

 

위의 설명이 잘 이해 안가시는 분은 강의를 꼭 봐주세요. 강의에서 Easy 로또로 예를들어 더 쉽게 직관적으로 설명했습니다.

이항분포

곧 확률분포가 뭔지 설명할 예정입니다. 그 전에 이해가 쉬운 이항분포를 조금 공부하고 가겠습니다. 이항분포는 동전던지기라고 생각하면 좋습니다. 사실 성공과 실패로 나뉘는 사건을 다루기 좋은 분포입니다. 이 전에 우리는 2개를 했었죠?

  1. 개를 볼 확률
  2. 동전의 앞면이 나올 확률

첫 번째는 개를 보는 것을 성공으로 보고 성공확률 $p$라고 표현할 수 있고요, 두 번째는 동전의 앞면이 나온 결과를 성공으로 보고 똑같이 $p$라고 표현할 수 있습니다. 그럼 10번 중에 7번 개를 봤을 확률과 동전을 10번 던졌는데 7번 앞면이 나올 확률을 아래와 같이 표현할 수 있습니다.

$$ P( x = 7 ) = \binom{10}{7} p^7 (1-p)^3 $$

 

총 시행회수 10번/성공확률 7번을 일반화 시켜서 n, k라고 하면 아래와 같이 됩니다.

$$ P( x = k ) = \binom{n}{k} p^k (1-p)^{n-k} $$

많이 본 식이죠? 네 맞습니다. "있음직한 일"에서 본 식입니다.

 

이항분포 조금 더 말씀드리면 위 식은 $X ~ B(n,p)$를 따른다고 합니다. 그리고 평균과 분산은 아래와 같이 됩니다.

$$E(X) = np, V(X) = npq (q = 1- p)$$

 

이 부분 증명은 나중에 필요할 때 하겠습니다. 지금은 그냥 직관적으로 보겠습니다. 동전의 앞면의 나올 확률이 $\frac{7}{10}$일때 동전을 10번 던지면 몇번 성공할까요? 평균적으로 말이죠. 네 7번 성공하겠죠? 그래서 $np = 10 * 0.7 = 7$ 이렇게 되는 겁니다. 그 다음에 7번이 아니라면 몇 번 정도 성공이 나올까요? 5번에서 9번 정도로 가장 많이 나올겁니다. 그래서 분산은 $npq = 10*0.7*0.3 = 2.1$ 7번에서 -2.1, +2.1(4.9 ~ 9.1)사이 정도로 퍼진다는 겁니다.

 

잘 이해 안가시는 분은 강의 참고해주세요~

안녕하세요?

지난시간 정리

15강의 질문이 뭐였죠?

 

"우리가 빨간선을 찾는데 사용한 MSE가 과연 합리적인가?"

 

우리는 위 질문에 대해 "맞아, MSE는 합리적이야." 라는 결론을 내리기 위한 공부를 하고 있습니다.

(빨간선 찾기: 평균제곱오차로 우리의 선형회귀 모델을 수립하는 것)

 

만약 다른 방법으로도 우리의 모델을 찾는 식이 MSE와 같다면 우리는 MSE가 합리적이라는 확신을 가질 수 있을 것 입니다. 그래서 확률적 가정과 정규분포를 사용해서 합리적인 빨간선을 찾는 과정을 공부할 겁니다.

 

확률적 가정으로 우리의 모델을 찾기위해서 우리는 최대우도추정법(MLE, Maximu Likelihood Estimation)을 공부해야 합니다. 바로 MLE를 설명하고 싶었지만 많은 분들이 MLE를 어려워 하는 것을 봤고 저 역시도 이해하기 어려웠기에 아주 근본적인 원리부터 설명하는 것이 바람직하다고 판단하고 철학적 배경이 되는 존재론/인식론과 빈도주의자/베이지안 관점을 설명했습니다.

 

하지만, 철학에 관한 부분은 저도 잘 모르고 제 생각을 말씀드려서 틀린 내용을 말했을 가능성이 높습니다. 참고만 해주시기 바랍니다. 그리고 혹시, 잘 아시는 분이 계시면 가르쳐 주세요..

강의보러가기 : https://www.youtube.com/watch?v=hZqJZnzOSXk

 

베이즈 정리

 

아직 베이즈 정리를 본격적으로 공부하는 단계는 아닙니다. 베이즈 정리는 MLE를 다 공부한 후에 Logistic Regresssion을 공부하면서 다시 자세히 공부할 예정입니다.

 

그래도 지금 베이즈 정리를 언급하는 이유는 베이즈 정리에도 "Likelihood(우도)"라는 놈이 있기 때문입니다. 저는 최대우도추정법에서 우도를 공부하고 어느정도 이해했다고 생각한 후에 베이즈 정리에서 다시 우도를 봤을때 멘붕이였습니다. 그래서 저 같은 분이 없도록 베이즈 정리에서의 우도를 잠깐 보겠습니다. 

 

$$ P(\theta|D) = \frac{P(D|\theta)P(\theta)}{P(D)} $$

 

위 베이즈 정리 식을 자세히 알아보겠습니다.

  1. $P(\theta)$: Prior, 사전확률입니다.
  2. $P(D|\theta)$: likelihood, 우도입니다.
  3. $P(\theta|D)$: Posterior, 사후확률입니다.
  4. $P(D)$: Marginal Distribution of D, D의 주변분포입니다.

지난 강의에서 베이지안은 확률에 대해 사전 믿음(Prior)을 가지고 새로운 결과(Likelihood)를 받아들여 사전믿음을 업데이트(Posterior) 한다고 말씀드렸습니다. 동전던지기의 예를들면 동전이 Fair하다고 생각하고 $\theta$를 0.5라고 가정할 수 있습니다. 또는 동전의 모양을 분석하거나 주변에 그 동전에 대해 아는 사람들한테 물어봐서 $\theta$를 0.7로 믿을 수도 있습니다.

 

그리고 동전을 던지고 나온 결과로 $\theta$를 업데이트 해 나가는 겁니다.
(베이지안은 믿음을 업데이트 하는 반면, 빈도주의자는 무한의 시행결과로 확률을 정합니다. !!)

 

위 강의 내용에서 $P(\theta)$를 $\theta$의 확률이라고 했는데 이 부분은 틀린 얘기입니다. 더 정확하게 말하면 $P(\theta)$는 확률분포입니다. 그래서 정확히 쓰면, 아래와 같이 됩니다.

 

$$ P(\theta) = \begin{cases} 1 & \text{if } 0 \leq \theta \leq 1 \\
0 & \text{otherwise}
\end{cases} $$

 

$\theta$가 0에서 1의 범위일때 1이라는 겁니다. 연속확률분포이고 균등분포입니다. $\theta$는 확률값이니까 0에서 1사이 값을 가진다는 뜻이죠. 아직 확률분포를 다루지 않았습니다. 모르셔도 됩니다. (강의에서 $\beta$ 분포도 언급했고, 주변분포도 언급했지만 지금은 모르셔도 됩니다.)

 

지금은 아래 예제에 대해서 통찰력만 가지시면 됩니다.

 

ex> 동전의 앞면이 나올 확률 Prior를 0.5로 설정한 후에 동전을 10번 던진 결과가 앞면 7번 뒷면이 3번 나옴.

 

위 예제에서 사전믿음 Prior에 기반한 동전던지기 결과가 우도(likelihood)라는 것이고 아래와 같이 됩니다.

 

$$ \binom{10}{7} \theta^7 (1-\theta)^3 = \binom{10}{7} (1/2)^7 (1/2)^3 $$

 

우도의 $\theta$에 우리의 사전믿음 1/2를 대입했습니다. 그리고 이 우도는 우리의 사전믿음 Prior를 업데이트 하기 위해서 사용됩니다. 앞면이 7번 나왔으니까, 우리의 사전믿음 $\theta$는 어떻게 될까요? 네 0.7에 가까워 진다고 생각할 수 있는 겁니다.

 

우선 베이즈 정리는 여기까지만 이해하는 걸로 하겠습니다.

최대우도추정법(MLE)

베이즈정리에서 우도는? 기억하시나요?

네 맞습니다. 사전믿음을 업데이트하기 위해 사용되었습니다. 그래서 우리는 베이즈 정리에 있는 우도(likelihood)에 Prior $\theta = 0.5$를 대입해서 우도를 구하고 사전믿음을 업데이트 했습니다.

 

최대우도추정법서 $\theta$는 미지수입니다. 그래서 아래와 같이 식을 씁니다.

 

$$ L(\theta) = \binom{10}{7} \theta^7 (1-\theta)^3 $$

 

베이즈 정리에서와의 차이가 눈에 보이시나요? 우선 $L(\theta)$가 있습니다. $\theta$에 대한 함수라는 뜻입니다. 그리고 과연 $\theta$ 가 얼마일때 $L(\theta)$가 최대가 될 것이냐라는 것이죠.

 

눈치 빠르신분은 $L(\theta)$를 미분하고 미분값이 0 일때 최대값이라는 것을 예측하실 수 있을겁니다.

맞습니다. 그런데 조금 더 Skill을 씁니다. 계산을 쉽게하기 위한 방법으로 로그를 사용합니다.

 

직접 확인하는 계산은 다음 강에 하겠습니다.

+ Recent posts