회귀(Regression) - 예측하고자 하는 값이 연속형 데이터 ex) 주식 가격 예측, 부동산 가격 예측 - 대표적인 방법론 : Linear Regression(선형 회귀) 분류(Classfication) - 예측하고자 하는 값이 범주형 데이터 ex) 문서 분류, 이미지 분류 - 대표적인 방법론 : Logistic Regression(로지스틱 회귀) GLM(Generalized Linear Model) : 일반화 선형 모델 - 선형 회귀와 로지스틱 회귀를 포함 로지스틱 회귀(Logistic Regression) - 독립변수와 종속변수 간의 관계를 분석하는 통계적 절차 - 선형 회귀 방식을 분류 분석에 적용한 알고리즘 - 주로 이진 분류 문제에 사용되지만, 다중 클래스 분류에도 적용 가능 - 로지스틱 ..
머신러닝에서는 과대적합(overfitting)을 줄이면서, 일반성을 가지는 모델을 생성하는 것이 중요함 이를 위해 사용되는 규제 기법에는 릿지(ridge) 회귀, 라쏘(lasso) 회귀 기법 등이 있음 라쏘 회귀(Lasso Regression) - 회귀계수의 절대값에 페널티를 부여하는 방식 - 불필요한 회귀 계수를 0에 근사하도록 만들어 과대적합 개선 - 주로 Feature Selection 의 목적으로 사용 - L1 규제라고도 함 - 모델러에 의해 지정된 alpha 값을 통해서 페널티를 조정할 수 있음 1) alpha 값 정의 2) Lasso(alpha) 클래스 객체 생성 3) fit(X, y) 을 통해 학습 데이터 연결 및 규제 학습 수행 4) predict(X) 통해 학습된 모델의 예측 수행 5) ..
머신러닝에서는 과대적합(overfitting)을 줄이면서, 일반성을 가지는 모델을 생성하는 것이 중요함 이를 위해 사용되는 규제 기법에는 릿지(ridge) 회귀, 라쏘(lasso) 회귀 기법 등이 있음 릿지 회귀(Ridge Regression) - 회귀계수의 제곱 값에 페널티를 부여하는 방식 - 회귀 계수 값의 크기를 감소시켜 과적합을 개선하는 방식 - L2 규제라고도 함 - 모델러에 의해 지정된 alpha 값을 통해서 페널티를 조정할 수 있음 1) alpha 값 정의 2) Ridge(alpha) 클래스 객체 생성 3) fit(X, y) 을 통해 학습 데이터 연결 및 규제 학습 수행 4) predict(X) 통해 학습된 모델의 예측 수행 5) score(X, y) 통해 R^2 값 확인(모델의 성능 지표 ..
규제(Regularization)의 이해 머신러닝의 목표 - 과대적합(Overfitting)을 줄이면서 일반성을 가지는 모델의 생성 -> 규제 기법을 사용하여 모델의 복잡도를 낮춘다. 과대적합이 발생하는 이유 - 최적의 계수를 찾기 위해, 손실함수의 갑을 최소화시키기위해, 학습데이터셋에 모델이 맞춰질 수 밖에 없다. 규제의 이해 - 규제 회귀(Regularized Regression), 벌점화 회귀(Penalized Regression) - 손실함수 최소화되는 모델을 만들면서, 모델의 overfitting을 최소화하는 기법 -> RSS + Penalty(회귀계수에 대한 패널티) - 규제란, 회귀계수 값을 감소시켜 과대적합을 개선하는 방식 과대적합의 최소화 - 독립변수 별 영향력(회귀계수)을 줄이거나, 0..
회귀(Regression)의 이해 - 회귀 분석이란 변수들 간의 관계를 분석하는 통계적 절차 - 독립변수와 종속변수 간의 상관 관계를 분석하는 통계적 절차 - 머신러닝의 대표적인 지도학습 방법 회귀의 목표 - 독립변수와 종속변수 간의 관계를 잘 나타내는 최적의 회귀선을 찾는 것 - 머신러닝에서는 학습이라는 과정을 통해 최적의 회귀선을 찾아냄 단순 선형회귀 분석의 목표 - 종속변수를 가장 잘 설명할 수 있는 최적의 회귀계수를 찾아 회귀선을 추적하는 것 - y = Wx + b (w는 가중치, b는 편향) - w와 b : 회귀계수(Regression Coefficients) 다중 선형회귀 분석의 목표 - 종속변수를 가장 잘 설명할 수 있는 최적의 회귀계수를 찾아 회귀선을 추정하는 것 - 독립변수가 2개 이상 ..