FSDS

어떤 용어가 정확한지는 모르겠지만 데이터 과학자가 end-to-end 다 하는 것에 대해 말하고 싶었다.
문득 얼마나 많이 할 줄 알면 full stack인지 궁금해져서 일단 아는대로 정리해보기로 했다. data scientist가 되고 싶은데 뭘 공부할까요? 하시는 분은 볼만 하실 것 같다.

  1. etl-데이터를 조작하는 능력
    • crawling
      • 웹에서 데이터를 가져오고
    • data model
      • rdb, nosql, s3라는 저장소의 장단점을 알며, 주어진 데이터에 적합하게 저장
    • aws
      • cloud 환경도 거뜬
    • spark
      • big data라면 pyspark가 대세
    • airflow
      • workflow 관리
  2. modeling-데이터에서 가치를 찾는 능력
    • mathematics
      • 기본적 이해와 응용 가능한 백그라운드
    • domain
      • 데이터를 글처럼 읽을 수 있어 프로젝트를 성공으로 이끄는 판단
    • paper study
      • 여러 방법론을 알고 비교할 수 있음
    • insight
      • 잘하시는 분은 ‘감’부터 다른 것 같습니다.
  3. deploy-데이터의 가치를 전달하는 능력
    • visualization
      • 복잡한 데이터를 이해하기 쉽게 보여주고
    • docker
      • data product 배송에 필요한 포장
    • mlflow
      • model을 고도화하거나 api화할 때
    • web dev
      • model을 api화할 때
    • network
      • api 실행 성능
  4. cs
    • hardware
      • 실행성능에 대한 이해
    • os
      • 작업환경에 대한 이해

정리해보니까 끔찍하게 많다.😳 시니어급 고수분이 세세히 정리하면 끝도 없을지도 모른다. 이걸 다 하는 사람은 절대 없을 것만 같은데 그러면 꼭 누군가는 있더라.