​지난 시간 정리

우리는 MSE(Mean Squared Error)를 사용하여 빨간 선을 찾는 것이 합리적인지 알아보기 위해 MLE(Maximum Likelihood Estimation)를 공부하고 있습니다. 지난 시간에는 MLE를 더 잘 이해하기 위해 이항분포와 함께 순열(Permutation)과 조합(Combination)을 공부했습니다. 

 

다시 제주도 옆 우도 예제를 보면서 MLE로 가봅시다.

$$ L(\theta) = P(D ; \theta) = \binom {10}{7}\theta^7(1-\theta)^3 $$

 

이항분포와 조합을 이해한 후 이 식이 더 잘 보일 것입니다. 마지막 식이 아직 어색하다면 이전 강의를 참고해 주세요. 이제, 개를 7번 고양이를 3번 봤을 때 정말 개를 볼 확률이 $\frac {7}{10}$이였을 때 최대우도가 되는지 보겠습니다. 다시 말해, $\theta = \frac {7}{10}$ 일 때 개를 7번 고양이를 3번 본 사건이 가장 "있음 직한 일"인지 확인하겠습니다.

강의 보러 가기: https://youtu.be/sjLQctg61iY?si=Iujle4rvpXWlKSxY

 

Likelihood의 가정 IID (Identically Independently Distributed)

우도의 가정을 분석해 봅시다.

$$ L(\theta) = P(D ; \theta), D \, are \, IID $$

$L(\theta)$는 $\theta$에 대한 Likelihood 함수라는 의미입니다. $P(D ; \theta)$는 $\theta$를 파라미터로 하는 데이터의 확률을 의미합니다. 베이즈 정리의 Likelihood와 약간 차이가 있습니다. 베이즈 정리에서 우도는 $P(D | \theta)$ 였습니다. $\theta$는 사전믿음(사전 확률, Prior)이었고 이를 기반으로 Data의 확률이 어떻게 되느냐의 관점이었습니다.

 

Data가 IID 하다는 가정을 해야 합니다. 엄청 어렵게 다가오실 수도 있지만 사실 별거 아닙니다. 우도를 돌면서 개를 볼 때 첫 번째 개를 봤어도 두 번째로 개를 볼 확률이 변하지 않는다는 겁니다.
(사실은 변할 수도 있는 거죠? 개를 이미 봤으니까 두 번째로 볼 때는 처음 본 개를 제외하고 계산할 수 있는 가정을 할 수 있는 거니까요)

이렇게 가정해야 이항분포 식이 나옵니다. 이항분포를 배울 때 각 사건이 독립적이다라는 가정을 했던 거 기억하시는 분들도 있을 겁니다. 동전 던지기로 생각해 보면, 바로 직전에 동전이 앞면이 나왔다고 다음에 앞면이 나올 확률이 변하는 게 아니라는 뜻입니다.

Likelihood 수식

최종적으로 식은 다음과 같이 표현됩니다

$$ L(\theta) = P(D ; \theta) = \binom {10}{7}\theta^7(1-\theta)^3 $$

 

그럼 $L(\theta)$를 최대로 하는 $\theta$는 어떻게 구할까요? 최댓값, 최솟값을 구하려면 미분이라는 좋은 방법이 있습니다. 그런데 위 식을 보니까, 미분이 너무 복잡해 보입니다. $\theta^{10}$ 항이 나오는 게 미분하기 싫어지는 기분이 확 듭니다.(미분이 불가능하다는 뜻이 아닙니다.)

 

우리는 이럴 때 Log를 사용할 수 있습니다.

Log의 도입

왜 로그를 도입해도 될까요? 위 강의 9분 44초부터 자세히 설명했으니 원리가 궁금하신 분들은 강의를 보시는 게 좋습니다.

 

간단히 말하면, 로그를 취해도 $0\le\theta\le1$에서 log를 취하기 전 $L(\theta)$와 비슷한 형태를 유지하기 때문입니다.  즉, 같은 $\theta$에서 최댓값을 갖는다는 겁니다. 또한, 로그를 사용하면 곱셈을 덧셈으로 바꿀 수 있습니다. 로그를 취한 우도를 log Likelihood라고 하고, 이를  $l(\theta)$로 정의합니다.

$$ l(\theta) = \log L(\theta) = \log \theta^7 (1-\theta)^3 $$

 

위와 같이 됩니다. 위 식을 보니까 훨씬 미분하기 수월하다는 게 느껴집니다.

결론

위 식을 미분해서 $theta$값을 구하면 $\frac {7}{10}$이 나옵니다. 이로써, 우리의 직관대로 개를 볼 확률이 $\frac {7}{10}$일 때 우리의 Likelihood 함수가 최댓값을 갖는 것을 확인할 수 있었습니다.

세부풀이와 원리가 궁금하신 분은 강의를 시청해 주세요 ^^. 강의 안 봐도 되는 분들을 위해서 우리 예제의 Likelihood와 Log Likelyhood 함수의 그래프를 첨부합니다.

Likelihood 함수
log Likelihood 함수

 

​지난시간 정리

우리는 빨간선을 찾기 위해 사용한 MSE가 합리적이였는가를 공부하고 있습니다. 이를위해 MLE(Maximum Likelihood Estimation)를 공부해야 합니다. 

 

MLE를 본격적으로 공부하기 전에 베이즈 정리를 살펴 봤습니다. 베이즈 정리에서도 우도(Likelihood)가 나왔습니다.  

베이즈 정리와 우도

베이즈 정리에서의 우도는 왜 사용했죠? 기억하시나요?

우리의 사전믿음(사전 확률, Prior)을 업데이트하기 위해 사용했습니다. 베이즈 정리에서의 우도는 주어진 $\theta$ 값에 따라 나오는 데이터의 확률을 의미하며, 이는 우리의 사전 믿음을 새로운 데이터에 기반해 갱신하는데 사용됩니다. .

 

15강에서 학습한 관점으로 설명하겠습니다. 베이즈 정리는 베이지안 관점을 반영하며, 이는 확률을 사전믿음의 업데이트 과정으로 보는 시각입니다. 반면, MLE는 빈도주의자 관점에서 접근합니다. 빈도주의는 관찰된 데이터를 기반으로 확률을 추정하는 방법으로, MLE는 이 관점에서 매우 중요한 도구입니다.

MLE에서의 우도 

MLE에서 우도는 사전믿음과는 다르게 다루어집니다. MLE는 관찰된 데이터를 기반으로 그 데이터를 가장 잘 설명할 수 있는 파라미터를 추정하는 방법입니다. 예를 들어, MLE는 "우도가 가장 높은 파라미터가 무엇인가?"라는 질문을 통해 우리가 관찰한 데이터를 가장 있음직하게 만드는 파라미터를 찾습니다. 따라서, "가능도"라는 표현이 우도보다 더 적절할 수 있습니다. 혹은 그냥 Likelihood라고 생각해도 무방합니다. 저는  "있음직한 일"이라는 표현이 더 직관적이고 마음에 듭니다. 

 

Likelihood는 사실 직관적으로 이해하기 너무 쉽습니다. 예제로 보겠습니다. 

 

 

  • 제주도 옆 우도에서의 관찰: 우도에서 개를 7번, 고양이를 3번 관찰했다고 가정합시다. 그렇다면, 개를 볼 확률이 얼마일 때 이 사건이 가장 있음직했을까요?
  • 동전 던지기: 동전을 10번 던져서 앞면이 7번, 뒷면이 3번 나왔다고 가정합시다. 앞면이 나올 확률이 얼마일 때 이 사건이 가장 있음직했을까요?

 

두 문제에 대한 답은 $\frac{7}{10}$ 입니다. 직관적으로도 이해할 수 있지만, 수학적으로도 이를 확인해 볼 수 있습니다. 그 전에 순열(Permutation)과 조합(Combination) 개념을 다시 살펴봅시다.

강의보러가기 : https://www.youtube.com/watch?v=JJkb1QdZy0s

로또확률

로또 다들 하시죠?

로또는 45개 숫자 중 6개를 맞추는 겁니다. 특별히 설명안해도 다들 아시리라 생각됩니다. 그럼 로또 확률은 어떻게 될까요? 경우의 수가 $_{45}C_6$ 이고 아래와 같이 계산합니다. 

$$_{45}C_6=\frac{^{45}P_6}{6!}=\frac{45!}{6!\left(45-6\right)!} = 8,145,060 $$

 

약 8백만분의 1입니다. 왜 당첨이 안되는지 알겠죠? 저는 100명 이상 참가하는 행사에서 행운권 당첨된 적도 한 번도 없습니다.

 

로또에는 두가지 특성이 있습니다.

  1. 비복원 추출
  2. 순서를 고려하지 않음.

비복원 추출은45개 번호 중에 6개를 뽑는데 하나뽑고 다음 수를 뽑을 때 이 전에 뽑았던 수를 다시 넣지 않는다는 겁니다. 예를들어 처음에 1을 뽑았으면 두 번째에는 2~45 중의 숫자를 뽑느다는 겁니다.

 

순서를 고려하지 않는다는건 추첨할때 1,2,3,4,5,6 의 순서로 뽑던 6,5,4,3,2,1의 순서로 뽑던 내가 선택한 번호가 1,2,3,4,5,6 이면 당첨이라는 거죠. 만약 순서까지 맞춰야 한다면 Permutaion의 경우의 수가 되서 더 당첨이 어려워지는 겁니다.

 

위의 설명이 잘 이해 안가시는 분은 강의를 꼭 봐주세요. 강의에서 Easy 로또로 예를들어 더 쉽게 직관적으로 설명했습니다.

이항분포

곧 확률분포가 뭔지 설명할 예정입니다. 그 전에 이해가 쉬운 이항분포를 조금 공부하고 가겠습니다. 이항분포는 동전던지기라고 생각하면 좋습니다. 사실 성공과 실패로 나뉘는 사건을 다루기 좋은 분포입니다. 이 전에 우리는 2개를 했었죠?

  1. 개를 볼 확률
  2. 동전의 앞면이 나올 확률

첫 번째는 개를 보는 것을 성공으로 보고 성공확률 $p$라고 표현할 수 있고요, 두 번째는 동전의 앞면이 나온 결과를 성공으로 보고 똑같이 $p$라고 표현할 수 있습니다. 그럼 10번 중에 7번 개를 봤을 확률과 동전을 10번 던졌는데 7번 앞면이 나올 확률을 아래와 같이 표현할 수 있습니다.

$$ P( x = 7 ) = \binom{10}{7} p^7 (1-p)^3 $$

 

총 시행회수 10번/성공확률 7번을 일반화 시켜서 n, k라고 하면 아래와 같이 됩니다.

$$ P( x = k ) = \binom{n}{k} p^k (1-p)^{n-k} $$

많이 본 식이죠? 네 맞습니다. "있음직한 일"에서 본 식입니다.

 

이항분포 조금 더 말씀드리면 위 식은 $X ~ B(n,p)$를 따른다고 합니다. 그리고 평균과 분산은 아래와 같이 됩니다.

$$E(X) = np, V(X) = npq (q = 1- p)$$

 

이 부분 증명은 나중에 필요할 때 하겠습니다. 지금은 그냥 직관적으로 보겠습니다. 동전의 앞면의 나올 확률이 $\frac{7}{10}$일때 동전을 10번 던지면 몇번 성공할까요? 평균적으로 말이죠. 네 7번 성공하겠죠? 그래서 $np = 10 * 0.7 = 7$ 이렇게 되는 겁니다. 그 다음에 7번이 아니라면 몇 번 정도 성공이 나올까요? 5번에서 9번 정도로 가장 많이 나올겁니다. 그래서 분산은 $npq = 10*0.7*0.3 = 2.1$ 7번에서 -2.1, +2.1(4.9 ~ 9.1)사이 정도로 퍼진다는 겁니다.

 

잘 이해 안가시는 분은 강의 참고해주세요~

+ Recent posts