[데이터 분석과 통계] 6. Linear Regression

2020. 11. 10. 10:34

728x90

Linear Regression

Linear Regression

가설 $H(\theta)$ $H (θ)$ : 데이터에 기반하여 가정한 모델
- 모델에 새 데이터를 입력시키면 예측값이 출력
- $H(\theta) = \theta_0 + \theta_1x_1 + \theta_2x_2+...$
- error : 해당 모델과 training data 사이의 출력(y)값 차이

Cost Function $J(\theta)$ $J (θ)$ : 가설 H와 실제 데이터 y 사이의 차이
- 예측 모델의 정확도를 표현
- J가 0이면 완벽한 예측임을 의미
- $J(\theta) = \frac{1}{2}[H(\theta) - y]^2$ $J (θ) = \frac{1}{2} [H (θ) - y]^{2}$
  - 최솟값의 계산 : $\theta$ 에 대한 미분값이 0이 되는 지점을 탐색
$\frac{\partial J(\theta)}{\partial \theta_i}=[H(\theta) - y]\frac{\partial H(\theta)}{\partial\theta_i}=[H(\theta)-y]x_i$ $\frac{\partial J ( θ )}{\partial θ _{i}} = [H (θ) - y] \frac{\partial H ( θ )}{\partial θ _{i}} = [H (θ) - y] x_{i}$
- parameter update : $\theta = \theta - \alpha\frac{\partial J(\theta)}{\partial\theta}$ ( $\alpha$ : running rate, 값이 변화하는 정도)
non-convex한 경우 : 미분값이 0이 되어도 최소가 아닐 수 있음

gradient descent : parameter update시 모든 오차값의 합을 이용해 갱신
- 데이터가 많은 경우 속도가 느린 단점
- 수렴할 때까지 : $\theta_j = \theta_j - \alpha\sum_{i=1}^m[H(\theta_j)-y^i]x_j^i$
stochastic descent
- gradient descent의 경우 모든 feature의 변화값 합을 계산하므로 연산 부담이 높음
- stochastic의 경우 각 feature마다 weight 변화를 갱신하므로 연산 부담이 상대적으로 낮음
- $\theta_j = \theta_j - \alpha[H(\theta_j)-y^i]x_j^i$ for all i

$\frac{\partial J(\theta)}{\partial\theta_i}=0$ $\frac{\partial J ( θ )}{\partial θ _{i}} = 0$
- 행렬 미분 : 각 원소에 대해 함수를 편미분
- $\nabla_AF(A)=\begin{bmatrix} \frac{\partial F(A)}{\partial a_{11}} ... \frac{\partial F(A)}{\partial a_{1n}}\\ ...\ \ \ \ \ \ \ \ \ \ \ ...\\ \frac{\partial F(A)}{\partial a_{n1}} ... \frac{\partial F(A)}{\partial a_{nn}} \end{bmatrix}$
$H(\theta) = X\Theta$ $H (θ) = X Θ$ 로 표현 가능
- $X = \begin{bmatrix} 1 x_1 x_2 .... x_n \end{bmatrix}$ , $\Theta = \begin{bmatrix} \theta_0\\ \theta_1\\ ...\\ \theta_n \end{bmatrix}$
- $\nabla_\theta J(\theta) = \frac{1}{2}\nabla_\theta[X\Theta - Y]^T[X\Theta - Y]$
- $X^T[Y-X\hat{\Theta}]=0$
  $\rArr\hat{\Theta}=[X^TX]^{-1}X^TY$

Linear Regression : $H(\theta) = \theta_0 + \theta_1 x_1$
Polynomial Regression(2nd-order) : $H(\theta) = \theta_0 + \theta_1 x_1 + \theta_2 x_1^2$
Feature Scaling
함수의 각 feature들이 비슷한 범위를 갖도록 함
- feature 범위가 달라지게 되면 각 feature가 결과에 영향을 주는 정도가 달라질 수밖에 없기 때문
- mean normalization : $x = \frac{x-\mu}{S}$ (S는 범위 혹은 표준편차)
Other regression
- multiple regression : 2차 이상의 비선형 데이터에 대한 회귀
- locally-weighted linear regression : 특정 부분에만 multiple linear model 구현

728x90