기타/Kaggle

#1. How Models Work 2020.09.05

#1. How Models Work

2020. 9. 5. 13:56

728x90

Introduction

어떻게 머신러닝 모델이 동작하고 어떤 방식으로 사용되는지에 대해 간략히 알아봅시다. 아마도 통계적 모델링 혹은 이전의 머신 러닝에서 진행하였기 때문에 기본적인 문제로 보일 수도 있습니다. 걱정하지 마세요, 우리는 곧 강력한 모델을 만들 것입니다.
이 짧은 코스는 여러분이 다음과 같은 시나리오로 모델을 만들도록 할 것입니다:
당신의 사촌이 부동산에 투자하여 수백만 달러를 벌어들였습니다. 그는 당신이 데이터 사이언스에 관심이 있었기에 같이 비즈니스 파트너가 될 것을 제안했습니다. 그는 자금을 공급하여 줄 것입니다. 그리고 당신은 어떤 주택이 가치가 있는지에 대해 예측하는 모델을 공급할 것입니다.
당신은 사촌에게 어떻게 그가 과거에 부동산 가치를 예측했는지에 대해 질문하고, 그는 단순히 직감이라고 답합니다. 하지만 더 많은 질문이 그가 과거에 보아 왔던 집들에서 가격 패턴을 인식하는 방식을 드러냈고, 그는 이러한 패턴을 그가 고려중인 새 집에 대한 예측에 사용하고 있습니다.
머신 러닝은 이와 같은 방식으로 동작합니다. 우리는 결정 트리(Deceision Tree)라 불리는 모델로 시작하게 될 것입니다. 더 정확한 예측을 제공하는 더 많은 모델이 있습니다. 하지만 결정 트리는 이해하기 쉽고, 데이터 사이언스의 최적화된 모델을 설정하기 위한 초석이라고 할 수 있습니다.
단순화를 위해, 우리는 가장 단순한 결정 트리로 시작하겠습니다.
이는 집을 오직 두 카테고리로 나눕니다. 어떠한 집의 판단 하에 예측된 가격은 동일 카테고리에 속하는 집들의 평균가입니다.
우리는 데이터를 두 그룹으로 나누는 결정에 데이터를 사용하고, 다시 각 그룹의 예상 가격을 결정합니다. 데이터에서 패턴을 찾는 이 단계를 모델의 **피팅(fitting)**과 **학습(training)**이라고 합니다. 모델을 피팅하는데 사용된 데이터를 **학습 데이터(training data)**라고 부릅니다.
어떻게 모델이 피팅되는가(예를 들어, 어떻게 데이터를 분류하는지)에 대한 자세한 내용은 복잡한 문제인 만큼 나중을 위해 남겨두도록 합시다. 모델이 피팅된 후, 당신은 새로운 데이터를 다른 집의 가격을 예측하기 위해 적용할 수 있습니다.

Improving the Decision Tree

다음 두 결정 트리 중 어느것이 부동산의 학습 데이터를 피팅한 결과에 더 적합하다고 할 수 있을까요?
왼쪽(Deceision Tree 1)의 결정 트리가 아마 더 적합할 것입니다. 왜냐하면 침실이 더 많은 집이 더 적은 집보다 더 비싼 가격에 팔리는 현실을 반영하기 때문입니다. 이 모델의 가장 큰 단점은 욕실의 개수, 토지의 크기, 장소 등과 같은 집값에 영향을 주는 대부분의 요인은 반영하지 못한다는 점입니다.
여러분은 더 많은 '분류'를 갖는 트리를 이용하여 많은 요인을 반영할 수 있습니다. 이런 것들을 "깊은" 트리라고 부릅니다. 각 집의 토지 크기도 고려하는 결정 트리는 아마 이렇게 생겼을 것입니다.
여러분은 이 결정 트리를 따라서, 집의 특성에 맞는 경로를 선택함에 따라 어떤 집의 가격을 예측합니다. 집의 예측된 가격은 트리의 맨 밑에 존재하게 됩니다. 우리가 결정을 내리는 맨 밑의 지점을 **잎(leaf)**라고 부릅니다.
잎에서의 분류와 값은 데이터에 의해 결정됩니다. 이제 여러분이 작업할 데이터를 확인해 볼 시간입니다.

728x90

저작자표시 비영리 변경금지

PREV 1 2 NEXT

공부정리 아카이브

기타/Kaggle

#1. How Models Work

Introduction

Improving the Decision Tree

+ Recent posts

티스토리툴바