프로젝트/코드프레소 체험단

파이썬으로 구현하는 머신러닝 : 회귀분석 - 회귀모델의 추정과 평가

KimCookieYa 2022. 1. 16. 17:40

회귀(Regression)의 이해

 - 회귀 분석이란 변수들 간의 관계를 분석하는 통계적 절차

 - 독립변수와 종속변수 간의 상관 관계를 분석하는 통계적 절차

 - 머신러닝의 대표적인 지도학습 방법

 

회귀의 목표

 - 독립변수와 종속변수 간의 관계를 잘 나타내는 최적의 회귀선을 찾는 것

 - 머신러닝에서는 학습이라는 과정을 통해 최적의 회귀선을 찾아냄

 

단순 선형회귀 분석의 목표

 - 종속변수를 가장 잘 설명할 수 있는 최적의 회귀계수를 찾아 회귀선을 추적하는 것

 - y = Wx + b (w는 가중치, b는 편향)

 - w와 b : 회귀계수(Regression Coefficients)

 

다중 선형회귀 분석의 목표

 - 종속변수를 가장 잘 설명할 수 있는 최적의 회귀계수를 찾아 회귀선을 추정하는 것

 - 독립변수가 2개 이상

 - 독립변수에 따라, 찾아야할 최적의 가중치도 많아짐

 

선형회귀 모델의 평가

 - 추정한 회귀선이 주어진 데이터에 적합한가?

 - 실제 값과 모델의 예측 값 간의 차이(오차)를 기반으로 모델을 평가

 - 값 간의 차이를 오차(Error), 또는 잔차(Residual)라고 한다.

 - Error(오차) : 모집단 실제값 - 모집단 회귀선 추정값

 - Residual(잔차) : 표본 실제값 - 표본의 회귀선 추정값

 - 잔차를 기반으로 오차를 추정하고자 함

손실함수(Loss Function)

 - 머신러닝 모델 학습 시, 학습의 지표가 되는 함수

 - 모델의 추론 결과와 실제 정답 간의 차이(오차, 잔차)를 계산하는 함수

 - 비용함수(Cost Function), 목적함수(Objective Function)라고도 부름

 - 손실함수의 값을 최소화하는 모델을 찾는 것이 중요

 

* 회귀분석의 손실함수

 - RSS(Residual Sum of Squares), 오차제곱합

 - MSE(Mean Squared Error), 평균제곱오차

 

회귀계수의 추정 : 경사하강법(Gradient Decent)

 - 손실함수가 최소화된 지점의 회귀계수를 찾아야한다

 - 오차가 최소화되는 방향으로 w 값을 이동시키는 방법

 - 미분을 이용한 순간 기울기 계산

 - 순간 기울기가 0인 지점이 오차가 최소화된 지점

 

회귀분석을 위한 평가 지표

 - MSE(Mean Squared Error) : 정답과 예측 값 사이의 제곱의 평균

 - MAE(Mean Absolute Error) : 정답과 예측 값 차이의 절대값의 평균

 - RMSE(Root Mean Squared Error)

 - MAPE(Mean Absolute Percentage Error)

 

선형회귀 모델의 평가 : R^2(R-Squared, 결정계수)

 - 회귀 모델의 설명력을 표현하는 지표

 - 추정한 회귀선이 주어진 자료에 대해 얼마나 적합한가를 의미함

 - 독립변수들 간의 영향력의 정도를 정량화한 수치

 

최적의 회귀 분석 모델을 만든다는 것은 오차제곱합(RSS)이 최소화되는 지점의 회귀 계수를 추정하는 것.