​지난시간 정리

우리는 빨간선을 찾기 위해 사용한 MSE가 합리적이였는가를 공부하고 있습니다. 이를위해 MLE(Maximum Likelihood Estimation)를 공부해야 합니다. 

 

MLE를 본격적으로 공부하기 전에 베이즈 정리를 살펴 봤습니다. 베이즈 정리에서도 우도(Likelihood)가 나왔습니다.  

베이즈 정리와 우도

베이즈 정리에서의 우도는 왜 사용했죠? 기억하시나요?

우리의 사전믿음(사전 확률, Prior)을 업데이트하기 위해 사용했습니다. 베이즈 정리에서의 우도는 주어진 $\theta$ 값에 따라 나오는 데이터의 확률을 의미하며, 이는 우리의 사전 믿음을 새로운 데이터에 기반해 갱신하는데 사용됩니다. .

 

15강에서 학습한 관점으로 설명하겠습니다. 베이즈 정리는 베이지안 관점을 반영하며, 이는 확률을 사전믿음의 업데이트 과정으로 보는 시각입니다. 반면, MLE는 빈도주의자 관점에서 접근합니다. 빈도주의는 관찰된 데이터를 기반으로 확률을 추정하는 방법으로, MLE는 이 관점에서 매우 중요한 도구입니다.

MLE에서의 우도 

MLE에서 우도는 사전믿음과는 다르게 다루어집니다. MLE는 관찰된 데이터를 기반으로 그 데이터를 가장 잘 설명할 수 있는 파라미터를 추정하는 방법입니다. 예를 들어, MLE는 "우도가 가장 높은 파라미터가 무엇인가?"라는 질문을 통해 우리가 관찰한 데이터를 가장 있음직하게 만드는 파라미터를 찾습니다. 따라서, "가능도"라는 표현이 우도보다 더 적절할 수 있습니다. 혹은 그냥 Likelihood라고 생각해도 무방합니다. 저는  "있음직한 일"이라는 표현이 더 직관적이고 마음에 듭니다. 

 

Likelihood는 사실 직관적으로 이해하기 너무 쉽습니다. 예제로 보겠습니다. 

 

 

  • 제주도 옆 우도에서의 관찰: 우도에서 개를 7번, 고양이를 3번 관찰했다고 가정합시다. 그렇다면, 개를 볼 확률이 얼마일 때 이 사건이 가장 있음직했을까요?
  • 동전 던지기: 동전을 10번 던져서 앞면이 7번, 뒷면이 3번 나왔다고 가정합시다. 앞면이 나올 확률이 얼마일 때 이 사건이 가장 있음직했을까요?

 

두 문제에 대한 답은 $\frac{7}{10}$ 입니다. 직관적으로도 이해할 수 있지만, 수학적으로도 이를 확인해 볼 수 있습니다. 그 전에 순열(Permutation)과 조합(Combination) 개념을 다시 살펴봅시다.

강의보러가기 : https://www.youtube.com/watch?v=JJkb1QdZy0s

로또확률

로또 다들 하시죠?

로또는 45개 숫자 중 6개를 맞추는 겁니다. 특별히 설명안해도 다들 아시리라 생각됩니다. 그럼 로또 확률은 어떻게 될까요? 경우의 수가 $_{45}C_6$ 이고 아래와 같이 계산합니다. 

$$_{45}C_6=\frac{^{45}P_6}{6!}=\frac{45!}{6!\left(45-6\right)!} = 8,145,060 $$

 

약 8백만분의 1입니다. 왜 당첨이 안되는지 알겠죠? 저는 100명 이상 참가하는 행사에서 행운권 당첨된 적도 한 번도 없습니다.

 

로또에는 두가지 특성이 있습니다.

  1. 비복원 추출
  2. 순서를 고려하지 않음.

비복원 추출은45개 번호 중에 6개를 뽑는데 하나뽑고 다음 수를 뽑을 때 이 전에 뽑았던 수를 다시 넣지 않는다는 겁니다. 예를들어 처음에 1을 뽑았으면 두 번째에는 2~45 중의 숫자를 뽑느다는 겁니다.

 

순서를 고려하지 않는다는건 추첨할때 1,2,3,4,5,6 의 순서로 뽑던 6,5,4,3,2,1의 순서로 뽑던 내가 선택한 번호가 1,2,3,4,5,6 이면 당첨이라는 거죠. 만약 순서까지 맞춰야 한다면 Permutaion의 경우의 수가 되서 더 당첨이 어려워지는 겁니다.

 

위의 설명이 잘 이해 안가시는 분은 강의를 꼭 봐주세요. 강의에서 Easy 로또로 예를들어 더 쉽게 직관적으로 설명했습니다.

이항분포

곧 확률분포가 뭔지 설명할 예정입니다. 그 전에 이해가 쉬운 이항분포를 조금 공부하고 가겠습니다. 이항분포는 동전던지기라고 생각하면 좋습니다. 사실 성공과 실패로 나뉘는 사건을 다루기 좋은 분포입니다. 이 전에 우리는 2개를 했었죠?

  1. 개를 볼 확률
  2. 동전의 앞면이 나올 확률

첫 번째는 개를 보는 것을 성공으로 보고 성공확률 $p$라고 표현할 수 있고요, 두 번째는 동전의 앞면이 나온 결과를 성공으로 보고 똑같이 $p$라고 표현할 수 있습니다. 그럼 10번 중에 7번 개를 봤을 확률과 동전을 10번 던졌는데 7번 앞면이 나올 확률을 아래와 같이 표현할 수 있습니다.

$$ P( x = 7 ) = \binom{10}{7} p^7 (1-p)^3 $$

 

총 시행회수 10번/성공확률 7번을 일반화 시켜서 n, k라고 하면 아래와 같이 됩니다.

$$ P( x = k ) = \binom{n}{k} p^k (1-p)^{n-k} $$

많이 본 식이죠? 네 맞습니다. "있음직한 일"에서 본 식입니다.

 

이항분포 조금 더 말씀드리면 위 식은 $X ~ B(n,p)$를 따른다고 합니다. 그리고 평균과 분산은 아래와 같이 됩니다.

$$E(X) = np, V(X) = npq (q = 1- p)$$

 

이 부분 증명은 나중에 필요할 때 하겠습니다. 지금은 그냥 직관적으로 보겠습니다. 동전의 앞면의 나올 확률이 $\frac{7}{10}$일때 동전을 10번 던지면 몇번 성공할까요? 평균적으로 말이죠. 네 7번 성공하겠죠? 그래서 $np = 10 * 0.7 = 7$ 이렇게 되는 겁니다. 그 다음에 7번이 아니라면 몇 번 정도 성공이 나올까요? 5번에서 9번 정도로 가장 많이 나올겁니다. 그래서 분산은 $npq = 10*0.7*0.3 = 2.1$ 7번에서 -2.1, +2.1(4.9 ~ 9.1)사이 정도로 퍼진다는 겁니다.

 

잘 이해 안가시는 분은 강의 참고해주세요~

+ Recent posts