"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."
구매링크 : http://aladin.kr/p/RPY5j
- 데이터 분석에 관심이 생겨 T아카데미, 오픈랩 등 대외활동을 통해 데이터 분석 대회에 몇가지 참가하게 되었는데, 항상 대회 초입에 들어갔을 때 가장 큰 문제가 분석 시작을 어떻게 해야하는가?에 대한 문제였다.
- 그 원인으로는 첫번째로는 도메인 지식의 부족(금융데이터를 분석하는데 이평선을 모른다면?)이 있을 것이다. 이 부분에 대해서는 보통 모르는 용어를 찾아보는 정도로 진입장벽을 넘어서는 것은 가능할 것이라고 본다. 그 이상의 심도 있느 분석에는 그만큼의 지식이 더 필요하겠지만...
- 두번째로는 데이터를 어떻게 다루어야 할 지를 모른다는 것이다. 데이터 분석이라는 분야에서는 이 문제가 가장 크게 작용할 것이라고 생각한다. 단순히 Pandas, Numpy를 쓸 줄 모른다는 문제가 아니다. 빈 데이터를 어떻게 처리해야 할지, 데이터 분포의 추세나 반복이 어떠한 의미를 갖게 될지 등을 해석하는 문제라고 할 수 있겠다.
- 특히나 이 부분에서 통계적 지식은 데이터를 다루는 데 빛을 발하게 해주는 요소라고 할 수 있겠다. 데이터 시각화를 통해 missing value나 데이터 추세만 보던 분석법에 멈추지 않고, 상관계수나 데이터 분포, 편차 등을 분석할 수 있다면 모델 정확도에도 긍정적 영향을 주지만, 일정한 추세를 알아내는 데 도움을 주어 머신러닝의 중요점 중 하나인 일반화된 모델을 구성하는데에도 많은 도움이 될 것이라고 생각한다. 각 통계분석 기법들을 도표 위에 표현하는 연습을 해본다면 시각화 연습은 덤으로 챙겨갈 수 있지 않을까?