Decision Tree

지금까지 우리가 살펴보았던 ML 알고리즘들과 모델들 (SVM, linear regression..)은 모두 linear model들이었다. 그리고 이번 강의에서 살펴볼decision_tree 는 첫번째로 우리가 다룰 non-linear model이다. 또 후에 배울ensemble 을 적용하기 위한 기초가 되는 부분이 된다.

Decision Tree는 다음과 같은 목표를 가지고 있다. example들이 분포되어있는 feature space를 각각의 region에 들어가도록 만들어 가장 최적된 region을 찾는 것이다. 이 과정에서 3가지 특징을 지니고 있다.

Greedy: 각각의 split을 하는 step마다 그 당시에 가능한 최선의 partition을 진행한다.
Top-Down: 하나의 큰 region에서 조금씩 partitioning을 진행해서 쪼개져 나가는 top-down 방식을 취한다.
Recursive Partitioning: split된 부분에서 또 다시 partitioning을 진행하여 반복한다

Decision Tree의 한가지 예시를 살펴보도록 하자. feature로는 Time(months)와 location(위도)가 있기 ski를 탈 수 있는지 binary classification을 진행하면 밑에 그래프와 같이 example들이 나열이 된다 (+:스키탈 수 있음 -: 스키 못탐). 이때 여러가지 질문들을 통해 점점 region을 나누게 된다.

이런식의 데이터 분포에서는 linear model들로 분리하고 학습하기 쉽지 않다. 물론 SVM 알고리즘과 Kernel을 같이 사용하면 가능하지만, decision tree를 사용하는 것이 훨씬 자연스러운 방법이다. 그리고 이런 질문들과 도식화 된 그림을 더 수학적으로 표현하기 위해서 split function을 사용한다. 이때 region을 정의하는데 여기서는 상위 region(즉, parent)를 Region $R_{p}$ 로 하위 region들(즉, 자식)들을 $R_{1}, R_{2}$ 라고 한다. 즉, $R e g i o n R_{p} \to R_{1}, R_{2}$ 로 split이 된 것이다.

이때 우리는 split을 진행하는 split function을 $s_{p}$ 로 정의하고 다음과 같이 표현이 가능하다 $$ \begin{aligned} s_{p}(\overbrace{ j }^{ \text{feature num} }\underbrace{ t }{ \text{threshold} })=&({x\mid x{j}<t,x \in R_{p}},\ &{x\mid x_{j}≥t,x \in R_{p}})\ =&(R_{1},R_{2}) \end{aligned}

🪴 Quartz 4.0

Explorer

CS229 10. Decision Trees & Ensemble Methods

Decision Tree

Graph View

Backlinks