회귀(Regression)의 이해
- 회귀 분석이란 변수들 간의 관계를 분석하는 통계적 절차
- 독립변수와 종속변수 간의 상관 관계를 분석하는 통계적 절차
- 머신러닝의 대표적인 지도학습 방법
회귀의 목표
- 독립변수와 종속변수 간의 관계를 잘 나타내는 최적의 회귀선을 찾는 것
- 머신러닝에서는 학습이라는 과정을 통해 최적의 회귀선을 찾아냄
단순 선형회귀 분석의 목표
- 종속변수를 가장 잘 설명할 수 있는 최적의 회귀계수를 찾아 회귀선을 추적하는 것
- y = Wx + b (w는 가중치, b는 편향)
- w와 b : 회귀계수(Regression Coefficients)
다중 선형회귀 분석의 목표
- 종속변수를 가장 잘 설명할 수 있는 최적의 회귀계수를 찾아 회귀선을 추정하는 것
- 독립변수가 2개 이상
- 독립변수에 따라, 찾아야할 최적의 가중치도 많아짐
선형회귀 모델의 평가
- 추정한 회귀선이 주어진 데이터에 적합한가?
- 실제 값과 모델의 예측 값 간의 차이(오차)를 기반으로 모델을 평가
- 값 간의 차이를 오차(Error), 또는 잔차(Residual)라고 한다.
- Error(오차) : 모집단 실제값 - 모집단 회귀선 추정값
- Residual(잔차) : 표본 실제값 - 표본의 회귀선 추정값
- 잔차를 기반으로 오차를 추정하고자 함
손실함수(Loss Function)
- 머신러닝 모델 학습 시, 학습의 지표가 되는 함수
- 모델의 추론 결과와 실제 정답 간의 차이(오차, 잔차)를 계산하는 함수
- 비용함수(Cost Function), 목적함수(Objective Function)라고도 부름
- 손실함수의 값을 최소화하는 모델을 찾는 것이 중요
* 회귀분석의 손실함수
- RSS(Residual Sum of Squares), 오차제곱합
- MSE(Mean Squared Error), 평균제곱오차
회귀계수의 추정 : 경사하강법(Gradient Decent)
- 손실함수가 최소화된 지점의 회귀계수를 찾아야한다
- 오차가 최소화되는 방향으로 w 값을 이동시키는 방법
- 미분을 이용한 순간 기울기 계산
- 순간 기울기가 0인 지점이 오차가 최소화된 지점
회귀분석을 위한 평가 지표
- MSE(Mean Squared Error) : 정답과 예측 값 사이의 제곱의 평균
- MAE(Mean Absolute Error) : 정답과 예측 값 차이의 절대값의 평균
- RMSE(Root Mean Squared Error)
- MAPE(Mean Absolute Percentage Error)
선형회귀 모델의 평가 : R^2(R-Squared, 결정계수)
- 회귀 모델의 설명력을 표현하는 지표
- 추정한 회귀선이 주어진 자료에 대해 얼마나 적합한가를 의미함
- 독립변수들 간의 영향력의 정도를 정량화한 수치
최적의 회귀 분석 모델을 만든다는 것은 오차제곱합(RSS)이 최소화되는 지점의 회귀 계수를 추정하는 것.
'프로젝트 > 코드프레소 체험단' 카테고리의 다른 글
파이썬으로 구현하는 머신러닝 : 회귀분석 - 규제의 이해 (0) | 2022.01.16 |
---|---|
파이썬으로 구현하는 머신러닝 : 회귀분석 - 다중 선형회귀 분석 실습 (0) | 2022.01.16 |
시각화를 위한 Matplotlib 활용하기 (0) | 2022.01.16 |
파이썬으로 구현하는 머신러닝 : 회귀분석 - 회귀의 이해 (0) | 2022.01.16 |
TensorFlow로 시작하는 딥러닝 - 딥러닝 모델의 성능 (0) | 2022.01.16 |