distribution in statistics
분포에 대하여 중요하지만 혼동하기 쉬운 지점이 있는데, 분포 함수는 randomness를 설명하는 방법이지 prediction을 얻는 방법이 아니다. (i.e. 주사위 눈은 1~6까지 uniform 분포, 딱 거기까지고 더 이상 예측의 문제가 아니다.)
분포가 random distribution에 fit하지 않는다는 말은 곧 random하지 않다는 것이며, 어떠한 요인에 의해 값이 영향 받는다는 것이다. (i.e. 내가 잡으면 1, 남이 잡으면 6이 나오도록 조작된 주사위)
동전 던지기를 20번씩 끊어서 평균을 내보면 분포그래프가 normal처럼 나오는 걸 볼 수 있다.(CLT)
여기서 동전 앞면이 나올 확률이 $10^{-100}$이라면? 동전을 무한번 던져야 겨우 1~2번 앞면이 나오게 되는데($n\rightarrow{\infty}$) 이항분포의 수식이 converge하는 형태로 변화한게 poisson 분포다. (e.g. e-commerce에서 고객별 구매 횟수를 확률 변수로 보면 대부분 0~5에 몰린 poisson이다. )
normal에 대한 오해
어떤 $X$의 sample size가 크다고 해서 꼭 normal인 것은 아니다. 이런 오해는 CLT를 잘못 알고 있어서 생긴건데 CTL는 $X$가 아닌 $\bar{X}$에 대한 정리다. $X$가 어떤 분포의 확률변수던간에 $\bar{X}$의 분포가 정규분포인 것이다. (이런 오해가 생긴건 sample의 일반적인 의미가 1개의 data point이기 때문이 아닐까?)
아무리 분포 plot이 정규분포처럼 생겼다 해도 정말 정규분포인지는 꼭 확인해봐야 알 수 있다.
특히 sample size가 클수록 그림에선 조그만 차이가 분포함수상에선 큰 차이로 나타난다.
MLE
분포 함수는 data sample에 대한 분포를 뜻하는데 MLE는 모수에 대한 분포를 기반으로 한다. 빗대자면 동전을 10번 던져서 5번 앞면이 나왔을 때, p가 0.1, 0.2일 확률보다 0.5일 확률이 더 높으므로 모수는 0.5라는 개념이다.
통계에서 모수 추정은 MLE 아니면 MAP(bayesian)라고 보면 된다. 만약 내 데이터가 완벽한 random normal 분포라면 regression와 딥러닝의 성능 차이가 없다. 왜냐면 random에서 MLE 보다 좋은 추정치가 없기 때문이다. 복잡한 pattern이 있는 data라면 당연 DNN이 낫다.
근데 random인 걸 확인하는 법은 안 알려줬다. 따로 찾아봐야할듯.
모수 추정하면 어떻게 활용하는지도 막막함. 실무에서 별로 쓸 데 없는듯.
공부해볼만한 것
강의에선 주가수익률(return)을 normal 분포, 주가를 log normal 분포로 소개했다. 내 계좌를 보면 그게 정말 맞을까 의구심이 드는데 꼭 확인하자. 숙제📉
글을 쓰다보니..
글을 쓰는 목표는 paraphrase를 지양하며, 정말로 내가 이해를 하면서, 어디서 볼 수 있는 뻔한 이야기가 아닌, 진짜 내가 구글링으로 찾고 싶었던 그 문서를 제공하는 것이었다. 이번 건 paraphrase에 가까워 좀 아쉬운데 다음엔 강의을 압축하기 보다는 재창조하는 방식으로 해보자.