프로젝트

프로젝트/코드프레소 체험단

파이썬으로 구현하는 머신러닝 : 비지도학습 - LDA 실습

선형판별분석(Linear Discriminant Analysis, LDA) - LDA는 supervised learning에 속하는 알고리즘이며, projection시킨 데이터들에서 같은 클래스에 속하는 데이터들의 variance는 최대한 줄이고 (σwithinσwithin), 각 데이터들의 평균 값들의 variance는 최대한 키워서 (σbetweenσbetween) 클래스들끼리 최대한 멀리 떨어지게 만드는 것. [이론 정리] 선형판별분석은 독립변수가 등간 또는 비율척도로만 구성되야 하는 제약사항을 가지고 있으며, 아래 기술하는 전제조건이 지켜졌을때 우수한 판별력을 보입니다. 전제조건 1 : 독립변수는 정규분포를 따라야 한다. 전제조건 2 : 종속변수와 독립변수는 상관관계를 가져야 한다. 전제조건 3 ..

프로젝트/코드프레소 체험단

파이썬으로 구현하는 머신러닝 : 비지도학습 - 선형판별분석(LDA)의 개념

선형판별분석(Linear Discriminant Analysis, LDA) - 두 개 이상의 모집단에서 표집된 표본들의 데이터분포를 이용하여 이 표본들이 어느 모집단에서 추출된 것인지 분류 예측을 할 수 있도록 기준을 찾는 분석법 - 지도학습 - PCA처럼 차원을 축소시키는 알고리즘이다. * 주성분분석과 선형판별분석의 차이 - PCA : 분산을 최대화시키는 요소(고유벡터)를 찾는다. - LDA : 클래스 분리를 위해 요소(클래스 평균값간의 거리)를 최대화시키고, 요소(겹치는 오류)를 최소화시킨다. 선형판별식 - 집단을 구분할 수 있는 독립(설명)변수를 통하여 집단 구분 함수식(판별식)을 도출하고, 소속된 집단을 예측하는 것이 목적 - LDA를 하기 위해선, 선형판별식이 도출되어야 한다. - 두 개 이상의..

프로젝트/코드프레소 체험단

파이썬으로 구현하는 머신러닝 : 비지도학습 - PCA 실습

주성분분석(Principal Components Analysis, PCA) - 데이터를 정사영(Projection)시켜 데이터 차원을 낮출 경우, 표본데이터의 분산을 제일 잘 유지하는 고유벡터를 구하는 문제를 해결하는 분석기법. [이론 정리] 행렬과 벡터의 두 열벡터의 선형결합으로 표현됨(즉, 선형변환을 의미) 공분산은 데이터의 퍼짐정도를 나타낸다. 방향성에 대해 나타냄 입력벡터 x를 A(행렬)로 선형변환 시킨결과 Ax는 입력벡터x의 상수배로 표현된다. 이때 Ax = λx 로 표현하는데, λ를 고유값(eigenvalue), x를 고유벡터(eigenvetor)라 함 from sklearn.datasets import load_iris import pandas as pd import matplotlib.py..

프로젝트/코드프레소 체험단

파이썬으로 구현하는 머신러닝 : 비지도학습 - 주성분분석(PCA)의 개념

PCA(Principal Components Analysis) - 고차원 데이터를 효과적으로 분석하기 위한 대표적인 차원축소 기법 PCA 핵심원리 - 데이터 차원을 축소할 경우, 어떤 벡터에 데이터들을 정사영시켜야 데이터 구조(분산)이 제일 잘 유지되는가? PCA 과정 Covariance(공분산)의 의미 공분산 VS 고유값(Eigenvalue), 고유벡터(Eigenvector)

프로젝트/코드프레소 체험단

파이썬으로 구현하는 머신러닝 : 트리모델 - Random Forest

Random Forest 모델 - Bagging 기법을 사용하는 대표적인 앙상블 학습 모델 - Base 모델로 Decision Tree를 사용 - 일반적인 특징은 Decision Tree와 유사함 - Decision Tree의 장점인 높은 모델 해석력은 해당하지 않음 Random Forest 모델의 장점 - Decision Tree의 장점을 대부분 포함(모델 해석력 제외) - Decision Tree에 비해 Overfitting의 위험성이 상대적으로 적음 - 단일 ML 모델보다 일반적으로 예측 성능이 높음 - 대부분의 Hyperparameter는 Decision Tree와 유사함 Random Forest 모델의 단점 - 느린 학습 속도 - Hyperparameter 튜닝의 어려움(너무 많은 조합이 가능)..

KimCookieYa
'프로젝트' 카테고리의 글 목록 (30 Page)