Dec 1, 2019 - Data Science Lecture Note

distribution in statistics

분포에 대하여 중요하지만 혼동하기 쉬운 지점이 있는데, 분포 함수는 randomness를 설명하는 방법이지 prediction을 얻는 방법이 아니다. (i.e. 주사위 눈은 1~6까지 uniform 분포, 딱 거기까지고 더 이상 예측의 문제가 아니다.)

분포가 random distribution에 fit하지 않는다는 말은 곧 random하지 않다는 것이며, 어떠한 요인에 의해 값이 영향 받는다는 것이다. (i.e. 내가 잡으면 1, 남이 잡으면 6이 나오도록 조작된 주사위)

동전 던지기를 20번씩 끊어서 평균을 내보면 분포그래프가 normal처럼 나오는 걸 볼 수 있다.(CLT)

여기서 동전 앞면이 나올 확률이 $10^{-100}$이라면? 동전을 무한번 던져야 겨우 1~2번 앞면이 나오게 되는데($n\rightarrow{\infty}$) 이항분포의 수식이 converge하는 형태로 변화한게 poisson 분포다. (e.g. e-commerce에서 고객별 구매 횟수를 확률 변수로 보면 대부분 0~5에 몰린 poisson이다. )

normal에 대한 오해

어떤 $X$의 sample size가 크다고 해서 꼭 normal인 것은 아니다. 이런 오해는 CLT를 잘못 알고 있어서 생긴건데 CTL는 $X$가 아닌 $\bar{X}$에 대한 정리다. $X$가 어떤 분포의 확률변수던간에 $\bar{X}$의 분포가 정규분포인 것이다. (이런 오해가 생긴건 sample의 일반적인 의미가 1개의 data point이기 때문이 아닐까?)

아무리 분포 plot이 정규분포처럼 생겼다 해도 정말 정규분포인지는 꼭 확인해봐야 알 수 있다.
특히 sample size가 클수록 그림에선 조그만 차이가 분포함수상에선 큰 차이로 나타난다.

MLE

분포 함수는 data sample에 대한 분포를 뜻하는데 MLE는 모수에 대한 분포를 기반으로 한다. 빗대자면 동전을 10번 던져서 5번 앞면이 나왔을 때, p가 0.1, 0.2일 확률보다 0.5일 확률이 더 높으므로 모수는 0.5라는 개념이다.

통계에서 모수 추정은 MLE 아니면 MAP(bayesian)라고 보면 된다. 만약 내 데이터가 완벽한 random normal 분포라면 regression와 딥러닝의 성능 차이가 없다. 왜냐면 random에서 MLE 보다 좋은 추정치가 없기 때문이다. 복잡한 pattern이 있는 data라면 당연 DNN이 낫다.

근데 random인 걸 확인하는 법은 안 알려줬다. 따로 찾아봐야할듯.
모수 추정하면 어떻게 활용하는지도 막막함. 실무에서 별로 쓸 데 없는듯.

공부해볼만한 것

강의에선 주가수익률(return)을 normal 분포, 주가를 log normal 분포로 소개했다. 내 계좌를 보면 그게 정말 맞을까 의구심이 드는데 꼭 확인하자. 숙제📉

글을 쓰다보니..

글을 쓰는 목표는 paraphrase를 지양하며, 정말로 내가 이해를 하면서, 어디서 볼 수 있는 뻔한 이야기가 아닌, 진짜 내가 구글링으로 찾고 싶었던 그 문서를 제공하는 것이었다. 이번 건 paraphrase에 가까워 좀 아쉬운데 다음엔 강의을 압축하기 보다는 재창조하는 방식으로 해보자.

Dec 1, 2019 - 191201 Diary

추워졌다

내복을 슬슬 입고 싶고 몸 컨디션도 떨어지고 의욕도 좀 떨어진다. 그래서 그런지 글을 쓰기 위해 앉는게 참 쉽지 않다.

숙제가 많다

노래 학원 끊어놓고 좀 슬렁슬렁 다녀볼랬더니 연습 열심히 안한다고 엄청 뭐라한다… 진짜 공부하듯이 열심히 하니까 이제 좀 잔소리를 안 듣는다 😂

모르는 게 많다

회사에선 full stack 흉내를 내려다보니 이번주는 spark는 왜 OOM error가 나는지, DISK_ONLY면 왜 이렇게 용량을 처먹는지😡, django는 왜 세팅이 꼬였는지 등등을 고민했다.

점점 아는게 많아지지만 그것보다 훨씬 더 빠르게 모르는게 많아졌다…😟

운동도 해야겠다.

이제 30대가 다되는만큼 점점 관리의 필요성을 느낀다. 밥 벌어먹고 살기 위해선 그냥 운동은 필수다…

Nov 17, 2019 - 191117 Diary

자체휴강

주말마다 ‘data science lecture note’라는 이름으로 계속 강의록 및 부연설명을 올렸으나 이번주는 개인사정을 핑계로 미룬다.😝

강의 공부 대신 주말동안 노래 학원을 끊고 오늘 호흡이 무엇인지를 배웠다.

조금만 말해도 목이 아파와서 말을 많이 하는건 꽤나 부담인 내게 오늘 가르침은 엄청난 수확이었다.

호흡은 생각보다 힘이 드는게 정상이고 끊기지 않아야된다는 것. (i.e. 밖으로~ 나가버리고오오오오오오오) 시키는대로 했더니 오호.. 확실히 목이 좀 더 편하다. 알고나니 간단하지만 모를떈 이렇게 헤맬수가 없다. 습관으로 만드는데는 시간이 걸리겠지만 잘못된 개념을 깨닫는 것만 해도 이미 절반 이상 된거라고 믿는다.

이 또한 굉장한 자기개발이라고 생각한다. 내 몸을 잘 쓰는 법을 배웠고 세상엔 별별 사람이 별별 방법으로 먹고 산다는 것 또한 배워간다.