​지난 시간 정리

지난 시간에 표본공간, 실험, 사건, 확률변수, 확률함수 등을 정리했습니다. 중요하게 기억해야 할 것은 확률변수입니다.

 

확률변수는 표본공간의 원소를 실수로 변환하는 함수입니다.

  • 동전을 던져 앞면을 1, 뒷면을 0으로 변환한다고 가정하면, 확률변수 𝑋는 다음과 같이 정의됩니다:
    𝑋(𝐻) = 1, 𝑋(𝑇)= 0
  • 즉, 표본공간 {𝐻,𝑇}를 실수 {1,0}으로 변환하는 역할을 합니다.

또한 확률함수확률변수의 값을 확률로 변환하는 함수라는 것입니다. 그리고 이 확률함수는 이산형확률함수와 연속형확률함수로 나눌 수 있고, 이 두개의 이름이 다릅니다. 이산형확률함수를 확률질량함수라고 하고, 연속형확률함수를 확률밀도함수라고 합니다.

 

강의보러가기: https://youtu.be/lvka0j2_7ic?si=DC0ggGwEt_oj77wK

이산형확률변수

Bernoulli Distribution

확률변수로 성공은 1 실패는 0으로 변환하고 성공의 확률을 $p$ 라고 두면 확률 함수는 아래와 같습니다.

 

$$ f_X(x;p) = p^x(1-p)^{1-x}, \space\space x = 0\space or \space1 $$

 

$ f_X(x;p) $는 $p$로 Parameterized 된 확률변수 X에 대한 x확률변수 함수라는 뜻입니다. $p$로 parameterized 됐다는 건 p에 의해 확률분포 모양이 변한다는 의미입니다.

 

아주 쉽습니다. 한 번 시도이니까 만약 성공이면 $ x = 1 $ 이니까 $p$가 되고 실패라면 x = 0 이니까 $1-p$가 됩니다. 베르누이라는 말에 어려움을 느끼지만, 제일 쉽습니다.

 

평균과 분산

$$ E[X] = p $$
$$ V[X] = p(1 - p) $$

 

위 식은 따로 설명할 필요없을 것 같습니다. 성공 확률이 p니까 평균적으로 p의 확률만큼 성공하겠죠. 분산은 성공확률 $p$를 중심으로 $1-p$만큼 퍼져있는겁니다. 수학식으로는 아래와 같이 됩니다. 

 

$$ E[X] = \sum_{x=0,1} xp^x(1-p)^{1-x} = 0 + p = p$$
$$ V[X] = E[X^2] - (E[x])^2 = \sum_{x=0,1} x^2p^x(1-p)^{1-x} = p - p^2 = p(1-p)$$

 

강의에서 $ V[X] = E[X^2] - (E[x])^2 = \sum_{x=0,1} x^2p^{x^2}(1-p)^{1-x^2} $이라고 썼는데 강의내용이 틀렸으니 참고하시기 바랍니다. 글이 수정이 쉬워서 글먼저 쓰고 유트브를 만드는게 더 품질이 좋을 것 같은데, 블로그 글쓰기는 저도 모르게 계속 미루게 됩니다.

Binomial Distribution

베루누이분포와 거의 똑같습니다. 다만 시행을 여러번 즉, n번한다고 가정하고 확률변수는 성공의 횟수로 합니다. 그래서 아래와 같은 확률질량함수가 나옵니다.

$$ f_X(x;p) = \binom{n}{x}p^x(1-p)^{1-x} \space \space, for x = 0, \space1, \space\space...,n$$

이 전에 설명을 해서 설명은 생략합니다.

평균과 분산

$$ E[X] = np $$
$$ V[X] = np(1 - p) $$

1번 일때는 p이고 n번 시행하니까 평균이 np가 됩니다. 자세한 설명은 생략하겠습니다.

연속형확률변수

연속형확률변수는 특정값으로 나타내지 않고 범위로 나타냅니다. 왜냐하면 연속형확률함수의 확률밀도함수는 범위를 확률로 변환해줍니다. 연속형확률함수의 특정값에서의 확률은 항상 0입니다.

연속형확률변수의 특징을 보겠습니다.

 

1. Uncountable

연속형확률변수는 Uncoutable입니다. 우리 정규분포의 MLE를 공부하며 동물의 몸무게 예시를 봤었습니다. 동물의 무게를 셀 수 있을까요? 무게가 정확히 같은 동물은 없을 겁니다. 0.0000000000000000000000000000000000000000000001 그램이라도 다르겠죠.

 

2. Range 

셀 수 없기때문에 범위로 표시합니다. $[0, 1]$은 0과 1사이의 범위를 의미하고 0과 1을 포함합니다. $(0, 1]$ 0과 1사이의 범위를 의미하고 0은 포함하지 않고 1은 포함합니다.

 

3. $ \int $ 

$\sum$ 대신 $\int$를 활용합니다. 네, 범위를 적분하고 적분한 값이 확률을 의미합니다. 적분을 사용하니까 특정값에서 적분은 0이 되는 겁니다. $\int^{a}_{a} f(x)dx$ 는 항상 0입니다.

확률밀도함수

$$ P=(a\leq X \leq b) = \int^{a}_{b} f(x) dx $$

위 식에서 볼 수 있듯이 확률변수 X가 a와 b사이에 있을 확률은 오른쪽 식이 됩니다. f(x)가 확률밀도함수이고, 적분하여 확률을 구합니다. 적분되는 식 $f(x)$가 확률밀도함수입니다.

 

확률질량함수와 범위를 보는관점이 다릅니다. 확률질량함수에서의 확률변수는 < 와 $\leq일때 값의 차이가 있습니다. 하지만 연속형은 값이 같습니다.

 

예를들어 누적질량함수를 구할때 $P(a < X \leq b) \neq $P(a < X < b) $ 와 같이 범위에서 a 또는 포함되느냐 아니냐에 따라서 확률값이 달라지지만, 연속형확률변수는 $P(a < X \leq b) = $P(a < X < b) $ a와 b 포함여부에 관계없이 같습니다. 적분의 성질을 잘 생각보시면 됩니다.

누적밀도함수

$$F(x) = P(X \leq x) = \int^{x}_{-\infty} f(t) dt $$

입니다. 확률밀도함수를 적분하면 누적밀도함수가 됩니다. 당연히 누적밀도함수를 미분하면 확률밀도함수가 됩니다.

평균과 분산

$$E[x] = \int xf(x) dx $$
$$V[x] = E[(x-\mu)^2] = E[X^2] - (E[X])^2

상세한 내용은 강의를 참고하시 바랍니다.

​지난 시간 정리

MLE에 대한 간략한 소개까지 완료 했습니다.

 

다시 한 번 간단히 말씀드리면, 데이터를 목격하고 과연 이 데이터는 어떻게 생긴 분포로 부터 나온것 이 가장 있음직(likelihood) 할까를 구하는 문제입니다.

 

제주도 옆 우도 예제를 말씀드리며 개와 고양이 중에 뭘 봤냐라는 문제는 이항분포를 가정하고 MLE를 통해 이항분포의 모수 p(개를 볼 확률)를 구해봤습니다. 또한, 그냥 동물을 보고 무게를 측정했을 때는 정규분포를 가정하고 MLE를 통해 정규분포의 모수 평균과 분산을 구해봤습니다.

 

이제 Gaussian Noise를 선형회귀에 적용하여 MLE에서 배운 지식을 활용해 우리가 사용했던 MSE(또는 SSE)가 진짜 합리적이였는지 봐야합니다.

 

제가 전에도 말씀 드렸죠? 우리는 왜 이 공부를 하고 있는지 생각하면서 가는게 정말 중요하다고요.

우리는 MSE(또는 SSE)를 활용해서 우리가 예측에 사용할 빨간선을 구했습니다. 그런데 진짜 MSE(또는 SSE)를 활용해서 빨간선을 구하는게 합리적인지 의심이 생겼다고요. 그래서 다른 방법으로도 MSE(또는 SSE)를 활용하는 것이 맞다고 나온다면 우리는 의심을 거둘 수 있을 겁니다.

 

Gaussian Noise를 선형회기에 적용하고 MLE를 활용해도 역시 MSE(또는 SSE)가 합리적이였다는 것을 알 수 있습니다. 수학적으로 SSE와 같은식이 나옵니다.

 

하지만 그 전에 확률과 통계를 잠시 다루고 가겠습니다. 이 부분은 다른 좋은 강의가 많아서 제가 만드는게 의미가 있을까 고민을 했습니다.(사실 머신러닝도 좋은 강의가 많긴 합니다.)  하지만, 제가 확실히 아는가에 대한 물음에 자신이 없어서 저 역시 한 번 강의를 만들면서 정리하는게 맞다고 생각했습니다.

**강의 보러 가기: https://youtu.be/pyeyuBmIOr4?si=SXI3E7pSC4C3j767

확률과 통계의 관계

확률과 통계는 데이터 분석의 두 축을 이루는 중요한 개념입니다. 이 둘의 차이를 간단히 설명하자면 다음과 같습니다:

 

확률(Probability): 모델이 주어졌을 때, 데이터를 예측하는 과정입니다. 예를 들어, 공평한 동전을 던질 때 앞면이 나올 확률이 1/2임을 예측하는 것이 확률입니다.

 

통계(Statistics): 데이터를 기반으로 모델을 추정하는 과정입니다. 예를 들어, 데이터를 보고 𝑦 = 𝑎𝑥+𝑏 형태의 선형 모델을 찾아내는 것이 통계입니다.

 

제가 참고한 웹에서 확률은 동물을 보고 발자국을 예측하는 것이고, 통계는 발자국을 보고 동물을 추정하는 것과 같아고 비유하고 있습니다. 한 번 읽어보시 바랍니다.

 

A Brief Introduction to Probability & Statistics: https://betterexplained.com/articles/a-brief-introduction-to-probability-statistics/

 

표본공간, 실험, 사건

 

확률을 이해하려면 몇 가지 기본 개념을 알아야 합니다.

 

1. 표본공간(Sample Space)

 

모든 실험 결과를 포함하는 집합입니다. 예를 들어, 동전을 한 번 던질 때 표본공간은 앞면(Head)과 뒷면(Tail)을 포함하는 집합 𝑆= {𝐻,𝑇}입니다.

 

2. 실험(Experiment)

데이터를 얻기 위해 수행하는 행위를 의미합니다. 동전을 한 번 던지는 것도 하나의 실험입니다.

 

3. 사건(Event)

표본공간의 부분집합으로, 특정 조건을 만족하는 결과를 나타냅니다. 예를 들어, 주사위를 던졌을 때 짝수가 나오는 사건은 {2, 4, 6}입니다.

 

확률변수와 확률함수

확률변수(Random Variable)

 

확률을 한 번 정리하기로 한 이유 중 하나입니다.

 

머신러닝을 공부하시는 많은 분들이 확률에 대해서 정확히 공부를 하지 않고 시작하는 경우가 많기 때문에, 이 확률변수를 정확히 모르는 경우가 많습니다.

 

확률변수는 표본공간의 원소를 실수로 변환하는 함수입니다.

  • 동전을 던져 앞면을 1, 뒷면을 0으로 변환한다고 가정하면, 확률변수 𝑋는 다음과 같이 정의됩니다:
    𝑋(𝐻) = 1, 𝑋(𝑇)= 0
  • 즉, 표본공간 {𝐻,𝑇}를 실수 {1,0}으로 변환하는 역할을 합니다.

확률함수(Probability Function)

 

확률변수의 값을 확률로 변환하는 함수입니다. 를 들어, 동전을 던질 때 𝑃(𝑋=1)=1/2, 𝑃(𝑋=0)=1/2 입니다.
모든 확률은 0 이상이어야 하며, 확률의 총합은 1이어야 합니다.

 

이 확률함수는 이름이 두개입니다. 이산형 확률변수의 확률함수는 확률질량함수라고 하고 연속형 확률변수의 확률함수는 확률밀도함수라고 합니다.

 

확률분포가 되기 까지

 

위는 강의 노트 중에 있는 내용입니다. 쉬운 내용이니까 꼭 정리하시면 좋습니다. 표본공간에는 전체 원소가 있습니다.(동전을 던진 다면 H, T) 이 표본공간의 원소를 숫자로 바꿔주는 함수를 확률변수(Random Variable X, X(H) =1 / X(T) =0)라고 합니다. 마지막으로 이 확률변수를 확률로 바꿔주는 함수를 확률 함수라고 하고, 확률함수에는 이산형과 연속형이 있다는 겁니다. 꼭 정리하시기 바랍니다.

 

강의를 보시면 동전과 주사위로 두 번 정도 예를 들어 드렸으니 기억하시는데 도움이 되실 겁니다.

 

이산형 확률변수와 확률분포

이산형 확률변수(Discrete Random Variable)

 

이산형 확률변수는 유한하거나 셀 수 있는 무한한 값을 가질 수 있습니다.

 

예시 1: 동전 던지기

동전 한 번 던질 때 표본공간은 {𝐻,𝑇}이며, 확률변수 𝑋는 {1,0}으로 변환됩니다.

예시 2: 주사위 던지기

주사위를 던지면 표본공간은 {1,2,3,4,5,6}이고, 확률변수도 동일하게 {1,2,3,4,5,6}입니다.

 

확률분포(Probability Distribution)

 

확률분포는 확률변수를 통해 얻어진 확률들의 패턴을 나타냅니다.

이산형 확률분포: 동전 던지기처럼 값이 딱딱 떨어지는 분포입니다.

연속형 확률분포: 동물의 몸무게처럼 값이 연속적으로 나타나는 분포입니다.

기대값과 평균의 차이

기대값(Expected Value)은 확률분포의 평균을 나타냅니다. 이는 실험을 하기 전에도 계산할 수 있습니다.

반면, 평균(Mean)은 실제 데이터를 기반으로 계산한 값입니다. 예를 들어, 주사위의 기대값은 모든 값의 확률 가중 평균으로 𝐸[𝑋]=3.5 입니다. 이는 공정한 주사위를 가정한 이론적 확률에서 계산된 값입니다.

 

기대값과 평균의 차이에서도 저는 빈도주의자와 베이지안 관점의 차이가 느껴집니다. 기대값은 실험을 하기 전에 예측할 수 있는 값이니 베이지안 관점이고 평균은 실험을 통해서 나올 수 있는 값이니 빈도주의자 관점 같습니다. 

결론

확률과 통계는 데이터 분석에서 떼려야 뗄 수 없는 개념입니다. 이번 글에서는 확률과 통계의 기본 개념부터 확률변수, 확률함수, 이산형 확률분포, 그리고 기대값과 평균의 차이를 살펴봤습니다. 다음 글에서는 연속형 확률변수와 분포에 대해 알아보겠습니다.

지난 시간 정리

15강 ~ 19강 MLE 정리

 

MLE(최대우도추정법)에 대한 심층적인 이해를 위해 15강에서는 확률의 철학적 접근부터 시작하여 19강까지 이어지는 과정을 다루었습니다. 위 그림은 15강부터 현재까지의 내용을 요약한 것입니다.

 

최대가능도 구하기 요약

MLE 계산 단

 

이전 강의를 충실히 따라오신 분이라면 위 그림만 보셔도 주요 개념이 정리될 것입니다. 복습이 필요하신 분들은 19강 5분 40초까지의 내용을 다시 보시면 도움이 될 것입니다.

강의 보러 가기: https://youtu.be/BqQKI74ym1A?si=qSSM_0iUVfBjbQXJ

정규분포의 MLE

정규분포 MLE 직관적 설명

19강 강의 5분 41초부터 가우시안 분포(정규분포)에 대한 MLE 설명이 진행됩니다.

 

이번 예시에서는 제주도 옆 우도의 고양이 무게를 측정하여 분석하는 과정을 통해 정규분포의 MLE를 이해해 봅시다. 우도 고양이들의 몸무게가 정규분포를 따른다고 가정한 후, 10마리의 고양이 무게를 측정한 결과는 다음과 같습니다:

 

[48, 52, 47, 49, 50, 53, 51, 50, 51, 48]

 

고양이 10마리의 평균과 분산을 계산한 결과, 평균은 50, 분산은 2.8이 나왔습니다. 그렇다면, 이 고양이들의 무게가 어떤 정규분포에서 나왔을 가능성이 가장 높을까요?

 

당연히 평균이 50이고 분산이 2.8인 정규분포에서 뽑혔을 확률이 가장 높을 것입니다.

정규분포의 MLE 수학적 설명

 

이제 MLE를 통해 평균과 분산이 얼마일 때 Likelihood 함수가 최대가 되는지 수학적으로 구해보겠습니다. 정규분포의 확률 밀도 함수(PDF)는 위 그림의 1번과 같은 형태를 가집니다.

 

가우시안 분포 또는 정규분포라고 하는 저 식은 사실 저도 잘 모릅니다. 한 번도 증명해 본 적이 없습니다. 그냥 고등학교 때부터 봐서 익숙한 느낌뿐입니다. ChatGPT에 물어보면 적분이 1인 성질을 이용해서 증명한다고 돼있습니다. 그럼 자연상수 e가 들어가는 식이라는 건 이미 알고 있다는 말인데 그건 또 어떻게 알게 됐는지... 저는 정규분포 외 포아송분포, t분포 등 이 분포들의 확률밀도함수는 받아들이기로 했습니다. 도전하실 분은 응원합니다.

 

아무튼, 가우시안 분포는 $\mu$(평균)와 $\sigma$(분산)에 parameterized 된 확률밀도함수를 가지고 있다는 것을 알 수 있습니다. 그리고 함수를 보면 직관적으로는 우리가 익숙한 "종"모양의 분포가 되겠다는 걸 알 수 있죠.

 

이제, Likelihood 함수를 로그 변환한 후에 미분하여  $\mu$와 $\sigma$를 최대화하는 값을 구해보면 아래 그림과 같은 결과를 얻을 수 있습니다.

 

이 결과는 우리의 데이터가 실제로 우리가 알고 있는 평균과 분산을 가지는 정규분포에서 나온 것이 가능도를 최대로 한다는 것을 수학적으로 증명합니다.

+ Recent posts