지난 시간 정리
MLE(최대우도추정법)에 대한 심층적인 이해를 위해 15강에서는 확률의 철학적 접근부터 시작하여 19강까지 이어지는 과정을 다루었습니다. 위 그림은 15강부터 현재까지의 내용을 요약한 것입니다.
최대가능도 구하기 요약
이전 강의를 충실히 따라오신 분이라면 위 그림만 보셔도 주요 개념이 정리될 것입니다. 복습이 필요하신 분들은 19강 5분 40초까지의 내용을 다시 보시면 도움이 될 것입니다.
강의 보러 가기: https://youtu.be/BqQKI74ym1A?si=qSSM_0iUVfBjbQXJ
정규분포 MLE 직관적 설명
19강 강의 5분 41초부터 가우시안 분포(정규분포)에 대한 MLE 설명이 진행됩니다.
이번 예시에서는 제주도 옆 우도의 고양이 무게를 측정하여 분석하는 과정을 통해 정규분포의 MLE를 이해해 봅시다. 우도 고양이들의 몸무게가 정규분포를 따른다고 가정한 후, 10마리의 고양이 무게를 측정한 결과는 다음과 같습니다:
[48, 52, 47, 49, 50, 53, 51, 50, 51, 48]
고양이 10마리의 평균과 분산을 계산한 결과, 평균은 50, 분산은 2.8이 나왔습니다. 그렇다면, 이 고양이들의 무게가 어떤 정규분포에서 나왔을 가능성이 가장 높을까요?
당연히 평균이 50이고 분산이 2.8인 정규분포에서 뽑혔을 확률이 가장 높을 것입니다.
정규분포의 MLE 수학적 설명
이제 MLE를 통해 평균과 분산이 얼마일 때 Likelihood 함수가 최대가 되는지 수학적으로 구해보겠습니다. 정규분포의 확률 밀도 함수(PDF)는 위 그림의 1번과 같은 형태를 가집니다.
가우시안 분포 또는 정규분포라고 하는 저 식은 사실 저도 잘 모릅니다. 한 번도 증명해 본 적이 없습니다. 그냥 고등학교 때부터 봐서 익숙한 느낌뿐입니다. ChatGPT에 물어보면 적분이 1인 성질을 이용해서 증명한다고 돼있습니다. 그럼 자연상수 e가 들어가는 식이라는 건 이미 알고 있다는 말인데 그건 또 어떻게 알게 됐는지... 저는 정규분포 외 포아송분포, t분포 등 이 분포들의 확률밀도함수는 받아들이기로 했습니다. 도전하실 분은 응원합니다.
아무튼, 가우시안 분포는 $\mu$(평균)와 $\sigma$(분산)에 parameterized 된 확률밀도함수를 가지고 있다는 것을 알 수 있습니다. 그리고 함수를 보면 직관적으로는 우리가 익숙한 "종"모양의 분포가 되겠다는 걸 알 수 있죠.
이제, Likelihood 함수를 로그 변환한 후에 미분하여 $\mu$와 $\sigma$를 최대화하는 값을 구해보면 아래 그림과 같은 결과를 얻을 수 있습니다.
이 결과는 우리의 데이터가 실제로 우리가 알고 있는 평균과 분산을 가지는 정규분포에서 나온 것이 가능도를 최대로 한다는 것을 수학적으로 증명합니다.
'Machine Learning' 카테고리의 다른 글
21강 [확률과 통계 2부] 이산형확률변수, 연속형확률변수 (0) | 2024.12.18 |
---|---|
20강 [확률과 통계 1부] 확률변수/확률함수/확률분포 (0) | 2024.11.24 |
18강 [최대우도추정법, MLE 4부] MLE 완전정복, Log Likelihood의 이해 (4) | 2024.09.01 |
17강 [최대우도추정법, MLE 3부] 로또확률 및 이항분포 (0) | 2024.08.31 |
16강 [최대우도추정법, MLE 2부] Bayes 정리에 있는 우도와 MLE 소개 (0) | 2024.08.24 |