지난 시간 정리
MLE에 대한 간략한 소개까지 완료 했습니다.
다시 한 번 간단히 말씀드리면, 데이터를 목격하고 과연 이 데이터는 어떻게 생긴 분포로 부터 나온것 이 가장 있음직(likelihood) 할까를 구하는 문제입니다.
제주도 옆 우도 예제를 말씀드리며 개와 고양이 중에 뭘 봤냐라는 문제는 이항분포를 가정하고 MLE를 통해 이항분포의 모수 p(개를 볼 확률)를 구해봤습니다. 또한, 그냥 동물을 보고 무게를 측정했을 때는 정규분포를 가정하고 MLE를 통해 정규분포의 모수 평균과 분산을 구해봤습니다.
이제 Gaussian Noise를 선형회귀에 적용하여 MLE에서 배운 지식을 활용해 우리가 사용했던 MSE(또는 SSE)가 진짜 합리적이였는지 봐야합니다.
제가 전에도 말씀 드렸죠? 우리는 왜 이 공부를 하고 있는지 생각하면서 가는게 정말 중요하다고요.
우리는 MSE(또는 SSE)를 활용해서 우리가 예측에 사용할 빨간선을 구했습니다. 그런데 진짜 MSE(또는 SSE)를 활용해서 빨간선을 구하는게 합리적인지 의심이 생겼다고요. 그래서 다른 방법으로도 MSE(또는 SSE)를 활용하는 것이 맞다고 나온다면 우리는 의심을 거둘 수 있을 겁니다.
Gaussian Noise를 선형회기에 적용하고 MLE를 활용해도 역시 MSE(또는 SSE)가 합리적이였다는 것을 알 수 있습니다. 수학적으로 SSE와 같은식이 나옵니다.
하지만 그 전에 확률과 통계를 잠시 다루고 가겠습니다. 이 부분은 다른 좋은 강의가 많아서 제가 만드는게 의미가 있을까 고민을 했습니다.(사실 머신러닝도 좋은 강의가 많긴 합니다.) 하지만, 제가 확실히 아는가에 대한 물음에 자신이 없어서 저 역시 한 번 강의를 만들면서 정리하는게 맞다고 생각했습니다.
**강의 보러 가기: https://youtu.be/pyeyuBmIOr4?si=SXI3E7pSC4C3j767
확률과 통계의 관계
확률과 통계는 데이터 분석의 두 축을 이루는 중요한 개념입니다. 이 둘의 차이를 간단히 설명하자면 다음과 같습니다:
확률(Probability): 모델이 주어졌을 때, 데이터를 예측하는 과정입니다. 예를 들어, 공평한 동전을 던질 때 앞면이 나올 확률이 1/2임을 예측하는 것이 확률입니다.
통계(Statistics): 데이터를 기반으로 모델을 추정하는 과정입니다. 예를 들어, 데이터를 보고 𝑦 = 𝑎𝑥+𝑏 형태의 선형 모델을 찾아내는 것이 통계입니다.
제가 참고한 웹에서 확률은 동물을 보고 발자국을 예측하는 것이고, 통계는 발자국을 보고 동물을 추정하는 것과 같아고 비유하고 있습니다. 한 번 읽어보시 바랍니다.
A Brief Introduction to Probability & Statistics: https://betterexplained.com/articles/a-brief-introduction-to-probability-statistics/
표본공간, 실험, 사건
확률을 이해하려면 몇 가지 기본 개념을 알아야 합니다.
1. 표본공간(Sample Space)
모든 실험 결과를 포함하는 집합입니다. 예를 들어, 동전을 한 번 던질 때 표본공간은 앞면(Head)과 뒷면(Tail)을 포함하는 집합 𝑆= {𝐻,𝑇}입니다.
2. 실험(Experiment)
데이터를 얻기 위해 수행하는 행위를 의미합니다. 동전을 한 번 던지는 것도 하나의 실험입니다.
3. 사건(Event)
표본공간의 부분집합으로, 특정 조건을 만족하는 결과를 나타냅니다. 예를 들어, 주사위를 던졌을 때 짝수가 나오는 사건은 {2, 4, 6}입니다.
확률변수와 확률함수
확률변수(Random Variable)
확률을 한 번 정리하기로 한 이유 중 하나입니다.
머신러닝을 공부하시는 많은 분들이 확률에 대해서 정확히 공부를 하지 않고 시작하는 경우가 많기 때문에, 이 확률변수를 정확히 모르는 경우가 많습니다.
확률변수는 표본공간의 원소를 실수로 변환하는 함수입니다.
- 동전을 던져 앞면을 1, 뒷면을 0으로 변환한다고 가정하면, 확률변수 𝑋는 다음과 같이 정의됩니다:
𝑋(𝐻) = 1, 𝑋(𝑇)= 0 - 즉, 표본공간 {𝐻,𝑇}를 실수 {1,0}으로 변환하는 역할을 합니다.
확률함수(Probability Function)
확률변수의 값을 확률로 변환하는 함수입니다. 를 들어, 동전을 던질 때 𝑃(𝑋=1)=1/2, 𝑃(𝑋=0)=1/2 입니다.
모든 확률은 0 이상이어야 하며, 확률의 총합은 1이어야 합니다.
이 확률함수는 이름이 두개입니다. 이산형 확률변수의 확률함수는 확률질량함수라고 하고 연속형 확률변수의 확률함수는 확률밀도함수라고 합니다.
위는 강의 노트 중에 있는 내용입니다. 쉬운 내용이니까 꼭 정리하시면 좋습니다. 표본공간에는 전체 원소가 있습니다.(동전을 던진 다면 H, T) 이 표본공간의 원소를 숫자로 바꿔주는 함수를 확률변수(Random Variable X, X(H) =1 / X(T) =0)라고 합니다. 마지막으로 이 확률변수를 확률로 바꿔주는 함수를 확률 함수라고 하고, 확률함수에는 이산형과 연속형이 있다는 겁니다. 꼭 정리하시기 바랍니다.
강의를 보시면 동전과 주사위로 두 번 정도 예를 들어 드렸으니 기억하시는데 도움이 되실 겁니다.
이산형 확률변수와 확률분포
이산형 확률변수(Discrete Random Variable)
이산형 확률변수는 유한하거나 셀 수 있는 무한한 값을 가질 수 있습니다.
예시 1: 동전 던지기
동전 한 번 던질 때 표본공간은 {𝐻,𝑇}이며, 확률변수 𝑋는 {1,0}으로 변환됩니다.
예시 2: 주사위 던지기
주사위를 던지면 표본공간은 {1,2,3,4,5,6}이고, 확률변수도 동일하게 {1,2,3,4,5,6}입니다.
확률분포(Probability Distribution)
확률분포는 확률변수를 통해 얻어진 확률들의 패턴을 나타냅니다.
이산형 확률분포: 동전 던지기처럼 값이 딱딱 떨어지는 분포입니다.
연속형 확률분포: 동물의 몸무게처럼 값이 연속적으로 나타나는 분포입니다.
기대값과 평균의 차이
기대값(Expected Value)은 확률분포의 평균을 나타냅니다. 이는 실험을 하기 전에도 계산할 수 있습니다.
반면, 평균(Mean)은 실제 데이터를 기반으로 계산한 값입니다. 예를 들어, 주사위의 기대값은 모든 값의 확률 가중 평균으로 𝐸[𝑋]=3.5 입니다. 이는 공정한 주사위를 가정한 이론적 확률에서 계산된 값입니다.
기대값과 평균의 차이에서도 저는 빈도주의자와 베이지안 관점의 차이가 느껴집니다. 기대값은 실험을 하기 전에 예측할 수 있는 값이니 베이지안 관점이고 평균은 실험을 통해서 나올 수 있는 값이니 빈도주의자 관점 같습니다.
결론
확률과 통계는 데이터 분석에서 떼려야 뗄 수 없는 개념입니다. 이번 글에서는 확률과 통계의 기본 개념부터 확률변수, 확률함수, 이산형 확률분포, 그리고 기대값과 평균의 차이를 살펴봤습니다. 다음 글에서는 연속형 확률변수와 분포에 대해 알아보겠습니다.
'Machine Learning' 카테고리의 다른 글
21강 [확률과 통계 2부] 이산형확률변수, 연속형확률변수 (0) | 2024.12.18 |
---|---|
19강 [MLE 5부] 가우시안 분포(정규분포) 데이터의 MLE (0) | 2024.09.01 |
18강 [최대우도추정법, MLE 4부] MLE 완전정복, Log Likelihood의 이해 (4) | 2024.09.01 |
17강 [최대우도추정법, MLE 3부] 로또확률 및 이항분포 (0) | 2024.08.31 |
16강 [최대우도추정법, MLE 2부] Bayes 정리에 있는 우도와 MLE 소개 (0) | 2024.08.24 |