프로젝트/코드프레소 체험단

파이썬으로 구현하는 머신러닝 : 분류분석 - 분류의 이해

KimCookieYa 2022. 1. 20. 00:21

회귀(Regression)

 - 예측하고자 하는 값이 연속형 데이터

 ex) 주식 가격 예측, 부동산 가격 예측

 -  대표적인 방법론 : Linear Regression(선형 회귀)

 

분류(Classfication)

 - 예측하고자 하는 값이 범주형 데이터

 ex) 문서 분류, 이미지 분류

 -  대표적인 방법론 : Logistic Regression(로지스틱 회귀)

 

GLM(Generalized Linear Model) : 일반화 선형 모델

 - 선형 회귀와 로지스틱 회귀를 포함

 


로지스틱 회귀(Logistic Regression)

 - 독립변수와 종속변수 간의 관계를 분석하는 통계적 절차

 - 선형 회귀 방식을 분류 분석에 적용한 알고리즘

 - 주로 이진 분류 문제에 사용되지만, 다중 클래스 분류에도 적용 가능

 - 로지스틱 함수를 이용하여 0과 1 사이의 값을 가지는 최적의 선 추정

-> 0과 1 사이의 반환값을 확률로 간주해 확률에 따라 분류하는 방식

-> 확률 기반의 분류 : 임계값(thresholds) 기반의 분류

-> 분류 정확도가 높은 회귀선을 찾는 것이 중요

 

로지스틱 회귀 - 0과 1 사이의 값을 반환하도록 함수를 적용함

로지스틱 회귀선의 추정

 - 기존 선형 회귀 분석에서 오차가 최소화되는 지점을 찾으려면 최소제곱합을 사용했다.

 - 로지스틱 회귀에서는 최소제곱합을 사용할 수 없다.

-> log를 사용한다.