Oct 12, 2019 - 191012 Diary

요즘은 회사에서 상품 profile을 만들고 이를 고객 profile에 활용하는 일을 하고 있다. 검색 엔진에서 transaction을 가지고 page ranking을 매기는 것처럼 유저별로 정밀하게 상품의 순위를 정할 수 있게 된다.

생각이 빨라야 한다.

요즘 드는 생각인데 회사 생활은 별로 대단한 게 아니고 올해 목표를 향해 똑바로 매일 한걸음씩 가는 것이다. 여기서 필요한 건 몸이 빠르게 움직이는 것보다는 생각의 속도가 빨라져야 야근 없이 회사 일과를 마칠 수 있다.

개인시간

주식에서 외인, 기관이 중요하다는 말을 수도 없이 듣는데 정말로 그런가를 검증해보고자 기관 매매 데이터를 모으고 있다. 잠깐 분석 코드를 짜봤는데 어떻게하면 과학적인 테스트가 될지 아직 감이 잘 안 온다. 좋은 내용이 나오면 github에 공유하면 좋을 것 같다.

달빛조각사란 게임 홍보 카톡이 왔길래 아무 생각없이 사전예약 했었는데 막상 오픈 때 다운 받아보니 생각 외로 재밌다. 자기 전에 잠깐 할랬더니 4시여서 요즘 일과가 피곤해졌다. ㅋㅋ

데이터사이언스 인강은 일요일에 듣기로 하자 😅

Sep 28, 2019 - Data Science Lecture Note

데이터 사이언스 인강 완강하자

수리통계적인 background를 보강하고자 인강을 찾아 3월에 신청했었는데 일도 바쁘고 몸도 아프고 해서 반절도 못 들었던 걸 이제 완강하려고 한다. 이렇게 글로 목표를 공언했으니 올해 안에는 마무리 해보려한다.

endogeneity - 내생성

통계학 수업들으면서 계량경제학 수업도 들은 적이 있는데 굉장히 통계 수업하고 흡사했던 기억이 난다. ML를 공부한다면 컴공, 통계, 수학을 떠올리나 계량경제가 applied science로서 어쩌면 더 좋은 궁합이 아닐까 싶다.

많은 통계 모델이 uncorrelated error 전제로 하지만 endogeneity는 error와 독립변수 X가 독립이 아닌 경우를 말하며 ML에서 본 용어는 아니지만 계량경제에서는 많이 보이는 문제다. 회귀분석의 경우 \(\epsilon \sim \mathcal{N}(0, \sigma)\) 이나 \(\epsilon \sim \mathcal{N}(X, \sigma)\) 처럼 X값이 증가하면 residual가 증가한 경우를 예시로 생각할 수 있다. 이와 연관된 개념이 heteroscedasticity인데 수식으로 비교하면

\[\begin{cases} endogeneity: E(e_i | x_i) = 0 \\ heteroscedasticity: V(e_i | x_i) = \sigma \end{cases}\]

endogenity는 first moment 문제이고 heteroscedasticity는 second moment 문제이다. endogenity 시뮬레이션

원인은 다양하게 설명이 있지만 결국 모델이 봤을때 X의 설명력이 부족해서 error로 떨어진 것이다. 따라서 근본적인 솔루션은 feature를 보강하는 것이다. 새로운 feature를 발굴하던가 model로 feature를 만드는 등 feature engineering 고민이 필요하다. (사실 이건 만병통치약 아닌가?..)

Sep 27, 2019 - 190927 Diary

IDG digital marketing 2019

회사에서 보내주셔서 감사히 다녀왔지만 실질적으로 데이터 사이언스에 도움이 될만한 소스는 아닌 것 같다. 그래도 점심식사와 간식이 맛있었고 참여 기업 부스에서 얻는 전리품도 달달하다. 어떤 마케팅 솔루션이 있는지 확인할 수 있는 기회 정도로 정리할 수 있다.

요즘 업무

데이터 분석에 필요한 환경 설정, 프로젝트 구조 설계 같은 큰 그림 위주로 보고 있다. 조만간 성과가 나올거고 글로 정리해서 올릴 생각이다.